MapReduce: diferència entre les revisions

Contingut suprimit Contingut afegit
Cap resum de modificació
Línia 20:
# '''Reduce''': cada node processa cada grup de dades resultants per clau en paral·lel.
 
El que permet MapReduce és fer el processament distribuït de les operacions de mapeig i reducció. Si les operacions de mapeig són independents les unes amb les altres, els maps es poden executar en paral·lel tot i que hi ha una limitació determinada per nombre de fonts de dades independents i el nombre de CPUs. De la mateixa manera, el conjunt de “reductors” poden realitzar la fase de reducció sempre que la fase de reducció sigui [[Propietat associativa|associativa]] o que totes les sortides de l’operació del map, que comparteixen la mateixa clau, es presentin en el mateix reductor, en el mateix temps. <ref>{{cite web|last=Czajkowski|first=Grzegorz|title=Sorting Petabytes with MapReduce – The Next Episode|url=http://googleresearch.blogspot.com/2011/09/sorting-petabytes-with-mapreduce-next.html|access-date=7 April 2014|author2=Marián Dvorský|author3=Jerry Zhao|author4=Michael Conley}}</ref>Tot i que aquest procés sol ser ineficient comparat amb altres algoritmes més seqüencials (ja que s’han d’executar múltiples instàncies del procés de reducció), el MapReduce pot ser aplicat sobre conjunts de dades amb un volum superior al que pot controlar un únic servidor bàsic. El paral·lelisme també ofereix la possibilitat de recuperar-se d’una falla parcial dels servidors o de l'emmagatzematge durant una operació, si un mapeig o un reductor fallar el treball es pot ser reprogramat.
El Map-Reduce també es pot dur a terme amb 5 passes: