Kas ir Hadoop? Ievads, Arhitektūra, Ekosistēma, Komponenti

Kas ir Hadoop?

Apache Hadoop ir atvērtā koda programmatūras sistēma, ko izmanto, lai izstrādātu datu apstrādes lietojumprogrammas, kuras tiek izpildītas izplatītā skaitļošanas vidē.

Lietojumprogrammas, kas izveidotas, izmantojot HADOOP, tiek palaistas lielās datu kopās, kas sadalītas pa preču datoru kopām. Preču datori ir lēti un plaši pieejami. Tie galvenokārt ir noderīgi, lai panāktu lielāku skaitļošanas jaudu par zemām izmaksām.

Līdzīgi kā dati, kas atrodas personālo datoru sistēmas lokālajā failu sistēmā, arī Hadoopā dati atrodas sadalītā failu sistēmā, ko sauc par Hadoop izplatīto failu sistēmu . Apstrādes modeļa pamatā ir “datu lokalizācijas” koncepcija, kurā skaitļošanas loģika tiek nosūtīta uz klastera mezgliem (serveriem), kuros ir dati. Šī skaitļošanas loģika ir nekas, bet kompilēta programmas versija, kas rakstīta augsta līmeņa valodā, piemēram, Java. Šāda programma apstrādā Hadoop HDFS saglabātos datus.

Vai Tu zini? Datoru kopa sastāv no vairāku procesoru vienības (atmiņas disks + procesors), kas ir savienoti viens ar otru un darbojas kā viena sistēma.

Šajā apmācībā jūs uzzināsiet,

Hadoop EcoSystem un komponenti
Hadoopa arhitektūra
Funkcijas 'Hadoop'
Tīkla topoloģija Hadoopā

Hadoop EcoSystem un komponenti

Zemāk redzamā diagramma parāda dažādus Hadoop ekosistēmas komponentus -

Apache Hadoop sastāv no diviem apakšprojektiem -

Hadoop MapReduce: MapReduce ir skaitļošanas modelis un programmatūras ietvars Hadoop palaisto lietojumprogrammu rakstīšanai. Šīs MapReduce programmas spēj vienlaikus apstrādāt milzīgus datus lielos skaitļošanas mezglu klasteros.
HDFS ( Hadoop izplatītā failu sistēma ): HDFS rūpējas par Hadoop lietojumprogrammu glabāšanas daļu. MapReduce lietojumprogrammas patērē datus no HDFS. HDFS izveido vairākas datu bloku kopijas un izplata tos kopas skaitļošanas mezglos. Šis sadalījums nodrošina ticamus un ārkārtīgi ātrus aprēķinus.

Lai arī Hadoops ir vislabāk pazīstams ar MapReduce un tās izplatīto failu sistēmu HDFS, šo terminu lieto arī saistītu projektu saimei, kas ietilpst izplatītās skaitļošanas un liela mēroga datu apstrādes jumtā. Citi ar Hadoop saistītie projekti Apache ir Hive, HBase, Mahout, Sqoop, Flume un ZooKeeper.

Hadoopa arhitektūra

Hadoopam ir Master-Slave arhitektūra datu glabāšanai un izplatītai datu apstrādei, izmantojot MapReduce un HDFS metodes.

NameNode:

NameNode pārstāv visus failus un direktoriju, kas tiek izmantots nosaukumvietā

DataNode:

DataNode palīdz pārvaldīt HDFS mezgla stāvokli un ļauj mijiedarboties ar blokiem

MasterNode:

Galvenais mezgls ļauj veikt datu paralēlu apstrādi, izmantojot Hadoop MapReduce.

Vergu mezgls:

Vergu mezgli ir papildu mašīnas Hadoop klasterī, kas ļauj saglabāt datus, lai veiktu sarežģītus aprēķinus. Turklāt visiem vergu mezgliem ir Task Tracker un DataNode. Tas ļauj sinhronizēt procesus ar attiecīgi NameNode un Job Tracker.

Hadoopā galveno vai pakļauto sistēmu var iestatīt mākonī vai uz vietas

Funkcijas 'Hadoop'

• Piemērots lielu datu analīzei

Tā kā lielie dati parasti ir izplatīti un nestrukturēti, HADOOP kopas ir vispiemērotākās lielo datu analīzei. Tā kā skaitļošanas mezglos plūst apstrādes loģika (nevis faktiskie dati), tiek patērēts mazāks tīkla joslas platums. Šo koncepciju sauc par datu lokalizācijas koncepciju, kas palīdz palielināt uz Hadoop balstītu lietojumprogrammu efektivitāti.

• Mērogojamība

HADOOP kopas var viegli jebkurā apjomā palielināt, pievienojot papildu kopu mezglus, tādējādi ļaujot palielināt lielos datus. Arī mērogošanai nav nepieciešamas modifikācijas lietojumprogrammas loģikā.

• Kļūdu tolerance

HADOOP ekosistēmā ir paredzēts, lai ievades datus atkārtotu citos klastera mezglos. Tādā veidā klastera mezgla kļūmes gadījumā datu apstrāde joprojām var turpināties, izmantojot datus, kas saglabāti citā klastera mezglā.

Tīkla topoloģija Hadoopā

Tīkla topoloģija (izkārtojums) ietekmē Hadoop klastera veiktspēju, kad Hadoop klastera lielums palielinās. Papildus veiktspējai ir jārūpējas arī par kļūdu augsto pieejamību un apstrādi. Lai sasniegtu šo Hadoop, kopu veidošanā tiek izmantota tīkla topoloģija.

Parasti tīkla joslas platums ir svarīgs faktors, kas jāņem vērā, veidojot jebkuru tīklu. Tomēr, tā kā joslas platuma mērīšana varētu būt sarežģīta, Hadoopā tīkls tiek attēlots kā koks, un attālums starp šī koka mezgliem (apiņu skaits) tiek uzskatīts par svarīgu faktoru Hadoop klastera veidošanā. Šeit attālums starp diviem mezgliem ir vienāds ar to attāluma summu līdz tuvākajam kopējam senčim.

Hadoop kopu veido datu centrs, plaukts un mezgls, kas faktiski veic darbus. Šeit datu centrs sastāv no plauktiem un statīvs sastāv no mezgliem. Procesiem pieejamais tīkla joslas platums mainās atkarībā no procesu atrašanās vietas. Tas ir, pieejamais joslas platums kļūst mazāks, kad mēs ejam prom no