Koja je temeljna razlika između MapReduce Split i HDFS bloka?


Odgovor 1:

Prije nego što shvatimo razliku, prvo razumimo što je MapReduce Split i HDFS blok:

1) Dijeljenje datoteke na blokove (HDFS blok) - Kad se datoteka upiše u HDFS, HDFS dijeli datoteku na blokove i brine se za njezinu replikaciju. Ovo se provodi jednom (uglavnom) i tada je dostupno svim MR poslovima koji se izvode na klasteru. Ovo je konfiguracija koja se sastoji od klastera

Drugo -

2) Dijeljenje datoteke na ulazne dijelove (Split) - Kada se ulazni put proslijedi u MR zadatak, MR posao koristi putanju zajedno s ulaznim formatom konfiguriranim za dijeljenje datoteka navedenih u ulaznom putu u dijelove, a svaki split je obrađuje zadatak karte. Proračun ulaznih dijelova vrši se formatom unosa svaki put kada se posao izvršava

Neke točke želio bih dodati kao zaključak između HDFS Bloka i Input Split-a

  1. Podjeljenje je logična podjela ulaznih podataka dok je blok fizička podjela ulaznih podataka.HDFS zadana veličina bloka je zadana veličina dijeljenja ako ulazni split nije naveden.Split je korisnički definiran i korisnik može kontrolirati podijeljenu veličinu u svom programu Map / Reduce . Jedan split može biti preslikavanje na više blokova, a jedan blok može biti višestruki. Broj zadataka preslikavanja jednak je broju podjela.

Odgovor 2:

HDFS Blok

1) Blok je neprekidno mjesto na tvrdom disku na kojem HDFS podaci pohranjuju podatke. FileSystem općenito pohranjuje podatke kao zbirku blokova. Na sličan način, HDFS pohranjuje svaku datoteku kao blokove i distribuira je po grupi Hadoop.

2) To je fizički prikaz podataka.

3) Veličinski blok - Zadana veličina HDFS bloka je 128 MB što je konfigurirano prema našem zahtjevu. Svi blokovi datoteke iste su veličine osim posljednjeg bloka. Posljednji blok može biti iste veličine ili manje.

Mapreduce InputSplit

1) InputSplit predstavlja podatke koje će pojedinačni Mapper obraditi. Daljnja podjela dijeli se na zapise. Svaki zapis (koji je par ključ-vrijednost) obradit će karta.

2) Logičan je prikaz podataka. Tako se tijekom obrade podataka u programu MapReduce ili drugim tehnikama obrade koriste InputSplit. U MapReduceu je važno da InputSplit ne sadrži ulazne podatke. Stoga je samo referenca na podatke.

3) Veličina InputSplit - Podjeljena veličina je otprilike jednaka veličini bloka.


Odgovor 3:

Blok je interni način na koji je datoteka odvojena na razini pohrane. DataNodes pohranjuju blokove i blokovi predstavljaju datoteku.

Podjela je jednostavno kako metoda InputFormat getSplits () odlučuje za podjelu ulaza. Primjerice, format unosa mogao bi vratiti 1 djelić za sve datoteke. 1 dijeljenje za svaku mapu, 1 dijeljenje za svaku datoteku ili je za samu datoteku moguće podijeliti više dijelova za jednu datoteku.

Proračun podijeljenosti temelji se na heuristikama i obično podesiv kao rascjep ujedinjuje paralelizam.