60 populārākie Hadoop & MapReduce Intervijas jautājumi & Atbildes

Lejupielādēt PDF

Šie ir bieži uzdotie jautājumi intervijās, kas paredzētas iesācējiem, kā arī pieredzējušiem izstrādātājiem.

1) Kas ir Hadoop Map Reduce?

Lielu datu kopu paralēlai apstrādei visā Hadoop klasterī tiek izmantots Hadoop MapReduce ietvars. Datu analīzē tiek izmantota divpakāpju karte un samazināšanas process.

2) Kā darbojas Hadoop MapReduce?

Programmā MapReduce kartes fāzes laikā tā saskaita vārdus katrā dokumentā, savukārt samazināšanas posmā apkopo datus atbilstoši dokumentam, kas aptver visu kolekciju. Kartes fāzē ievaddati tiek sadalīti sadalījumos analīzei pēc kartes uzdevumiem, kas paralēli darbojas Hadoop ietvaros.

3) Paskaidrojiet, kas MapReduce sajaucas?

Process, kurā sistēma kārto un kartes izvadus pārsūta reduktoram kā ievades, ir pazīstams kā sajaukšana

4) Paskaidrojiet, kas MapReduce Framework tiek izplatīts kešatmiņā?

Izplatītā kešatmiņa ir svarīga MapReduce ietvara nodrošinātā funkcija. Ja vēlaties koplietot dažus failus visos Hadoop klastera mezglos, tiek izmantota izplatītā kešatmiņa. Faili var būt izpildāmi jar faili vai vienkāršu rekvizītu fails.

5) Paskaidrojiet, kas Hadoop ir NameNode?

NameNode in Hadoop ir mezgls, kurā Hadoop saglabā visu faila atrašanās vietas informāciju HDFS (Hadoop Distributed File System). Citiem vārdiem sakot, NameNode ir HDFS failu sistēmas centrālais elements. Tas reģistrē visus failu sistēmā esošos failus un izseko failu datus visā kopā vai vairākās mašīnās

6) Paskaidrojiet, kas ir JobTracker Hadoop? Kādas darbības seko Hadops?

Programmā Hadoop MapReduce darbu iesniegšanai un izsekošanai tiek izmantots JobTracker. Darba izsekotājs darbojas ar savu JVM procesu

Job Tracker Hadoopā veic šādas darbības

Klienta pieteikums iesniedz darba vietas izsekotājam
JobTracker sazinās ar režīmu Nosaukums, lai noteiktu datu atrašanās vietu
Netālu no datiem vai ar pieejamām laika nišām JobTracker atrod TaskTracker mezglus
Izvēlētajos TaskTracker mezglos tā iesniedz darbu
Ja uzdevums neizdodas, Job tracker paziņo un izlemj, ko tad darīt.
TaskTracker mezglus uzrauga JobTracker

7) Paskaidrojiet, kas ir sirdsdarbība HDFS?

Sirdsdarbība ir signāls, kas tiek izmantots starp datu mezglu un nosaukuma mezglu, kā arī starp uzdevumu izsekotāju un darba izsekotāju, ja nosaukuma mezgls vai darba izsekotājs nereaģē uz signālu, tiek uzskatīts, ka ir dažas problēmas ar datu mezglu vai uzdevumu izsekotājs

8) Paskaidrojiet, kas ir kombinatori un kad MapReduce Job jāizmanto kombinētājs?

Lai palielinātu MapReduce programmas efektivitāti, tiek izmantoti kombinatori. Datu daudzumu var samazināt ar kombinatora palīdzību, kas jāpārnes uz reduktoriem. Ja veiktā darbība ir komutatīva un asociatīva, reduktora kodu varat izmantot kā kombinatoru. Hadoopā kombinatora izpilde netiek garantēta

9) Kas notiek, ja datu mezgls neizdodas?

Kad datu mezgls neizdodas

Jobtracker un namenode atklāj kļūmi
Neveiksmīgajā mezglā visi uzdevumi tiek pārplānoti
Namenode atkārto lietotāja datus citā mezglā

10) Paskaidrojiet, kas ir spekulatīvā izpilde?

Programmā Hadoop spekulatīvās izpildes laikā tiek palaists noteikts uzdevumu dublikātu skaits. Dažādos vergu mezglos var veikt vairākas vienas kartes vai samazināšanas uzdevuma kopijas, izmantojot spekulatīvo izpildi. Vienkārši sakot, ja konkrēts disks prasa ilgu laiku, lai pabeigtu uzdevumu, Hadoop izveidos uzdevuma dublikātu citā diskā. Disks, kas vispirms pabeidz uzdevumu, tiek saglabāts, un diski, kas nav pabeigti vispirms, tiek nogalināti.

11) Paskaidrojiet, kādi ir Mapper pamatparametri?

Mapper pamatparametri ir

LongWritable un Teksts
Teksts un rakstāms

12) Paskaidrojiet, kāda ir MapReduce partitioner funkcija?

MapReduce partitioner funkcija ir pārliecināties, ka visa viena taustiņa vērtība nonāk tajā pašā reduktorā, kas galu galā palīdz vienmērīgi sadalīt kartes izvadi pa reduktoriem

13) Paskaidrojiet, kāda ir atšķirība starp ieejas sadalījumu un HDFS bloku?

Datu loģisko sadalījumu sauc par sadalījumu, bet fizisko datu sadalījumu - kā HDFS bloku

14) Paskaidrojiet, kas notiek teksta formātā?

Teksta ievades formātā katra teksta faila rinda ir ieraksts. Vērtība ir rindas saturs, bet atslēga ir līnijas baita nobīde. Piemēram, Key: longWritable, Value: text

15) Pieminiet, kādi ir galvenie konfigurācijas parametri, kas lietotājam jānorāda, lai palaistu MapReduce Job?

MapReduce ietvara lietotājam ir jānorāda

Darba ievades vietas sadalītajā failu sistēmā
Darba izejas vieta sadalītajā failu sistēmā
Ievades formāts
Izejas formāts
Klase, kas satur kartes funkciju
Klase, kurā ir samazināšanas funkcija
JAR fails ar kartētāja, reduktora un draiveru klasēm

16) Paskaidrojiet, kas Hadoop ir WebDAV?

Lai atbalstītu failu rediģēšanu un atjaunināšanu, WebDAV ir HTTP paplašinājumu komplekts. Lielākajā daļā operētājsistēmu WebDAV koplietojumus var uzstādīt kā failu sistēmas, tāpēc HDFS ir iespējams piekļūt kā standarta failu sistēmai, pakļaujot HDFS pār WebDAV.

17) Paskaidrojiet, kas ir Sqoop Hadoopā?

Lai pārsūtītu datus starp Relāciju datu bāzes pārvaldību (RDBMS) un Hadoop HDFS, tiek izmantots rīks, kas pazīstams kā Sqoop. Izmantojot Sqoop, datus var pārsūtīt no RDMS, piemēram, MySQL vai Oracle, uz HDFS, kā arī eksportēt datus no HDFS faila uz RDBMS

18) Paskaidrojiet, kā JobTracker ieplāno uzdevumu?

Uzdevumu izsekotājs sūta sirdsdarbības ziņojumus Jobtracker parasti ik pēc dažām minūtēm, lai pārliecinātos, ka JobTracker ir aktīvs un darbojas. Ziņojums arī informē JobTracker par pieejamo vietu skaitu, lai JobTracker varētu sekot līdzi, kur var deleģēt kopu darbu

19) Paskaidrojiet, kas ir Sequencefileinputformat?

Sequencefileinputformat tiek izmantots failu secīgai lasīšanai. Tas ir īpašs saspiests binārā faila formāts, kas ir optimizēts datu pārsūtīšanai starp viena MapReduce darba izvadi uz kāda cita MapReduce darba ievadi.

20) Paskaidrojiet, ko dara conf.setMapper klase?

Conf.setMapperclass iestata kartētāja klasi un visu ar kartes darbu saistīto informāciju, piemēram, datu nolasīšanu un atslēgas vērtību pāra ģenerēšanu no kartētāja

21) Paskaidrojiet, kas ir Hadoops?

Tā ir atvērtā koda programmatūras sistēma datu glabāšanai un lietojumprogrammu darbināšanai preču aparatūras kopās. Tas nodrošina milzīgu apstrādes jaudu un milzīgu uzglabāšanu jebkura veida datiem.

22) Pieminiet, kāda ir atšķirība starp RDBMS un Hadoop?

RDBMS	Hadoops
RDBMS ir relāciju datu bāzes pārvaldības sistēma	Hadoop ir uz mezglu balstīta plakana struktūra
To izmantoja OLTP apstrādei, turpretī Hadoop	Pašlaik to izmanto analītiskai un LIELU DATU apstrādei
RDBMS datu bāzes kopa izmanto tos pašus datu failus, kas tiek glabāti koplietojamā krātuvē	Programmā Hadoop krātuves datus var neatkarīgi uzglabāt katrā apstrādes mezglā.
Pirms datu glabāšanas jums ir nepieciešams iepriekš apstrādāt datus	pirms datu glabāšanas nav nepieciešams iepriekš apstrādāt datus

23) Pieminēt Hadoop galvenos komponentus?

Hadoop galvenie komponenti ietver

HDFS
MapReduce

24) Kas Hadoop ir NameNode?

NameNode Hadoop ir vieta, kur Hadoop saglabā visu faila atrašanās vietas informāciju HDFS. Tas ir galvenais mezgls, kurā darbojas darba izsekotājs un sastāv no metadatiem.

25) Pieminiet, kādus datu komponentus izmanto Hadoop?

Hadoop izmantotie datu komponenti ir

Cūka
Stropu

26) Pieminiet, kādu datu glabāšanas komponentu izmanto Hadoop?

Hadoop izmantotais datu glabāšanas komponents ir HBase.

27) Pieminiet, kādi ir visizplatītākie Hadoop definētie ievades formāti?

Visbiežāk Hadoop definētie ievades formāti ir;

TextInputFormat
KeyValueInputFormat
SequenceFileInputFormat

28) Kas Hadoop ir InputSplit?

Tas sadala ievades failus gabalos un katru sadalījumu piešķir kartētājam apstrādei.

29) Kā jūs rakstīsit pielāgotu sadalītāju Hadoop darbam?

Jūs rakstāt pielāgotu sadalītāju Hadoop darbam, sekojat šim ceļam

Izveidojiet jaunu klasi, kas paplašina Partitioner klasi
Ignorēt metodi getPartition
Iesaiņojumā, kas vada MapReduce
Pievienojiet darbam pielāgoto sadalītāju, izmantojot metodi set Partitioner Class vai - pievienojiet pielāgoto sadalītāju darbam kā konfigurācijas failu

30) Vai darbam Hadoopā ir iespējams mainīt izveidojamo kartētāju skaitu?

Nē, nav iespējams mainīt izveidojamo kartētāju skaitu. Kartētāju skaitu nosaka ievades sadalījumu skaits.

31) Paskaidrojiet, kas ir Hadoop secības fails?

Lai uzglabātu bināro atslēgu / vērtību pārus, tiek izmantots secības fails. Atšķirībā no parastā saspiestā faila, secības fails atbalsta sadalīšanu pat tad, ja failā esošie dati ir saspiesti.

32) Kad Namenode nedarbojas, kas notiek ar darba izsekotāju?

Namenode ir vienīgais HDFS kļūmes punkts, tāpēc, kad Namenode ir uz leju, jūsu kopa sāksies.

33) Paskaidrojiet, kā tiek veikta indeksēšana HDFS?

Hadoopam ir unikāls indeksēšanas veids. Kad dati būs saglabāti atbilstoši bloka lielumam, HDFS turpinās glabāt datu pēdējo daļu, kurā teikts, kur būs nākamā datu daļa.

34) Paskaidrojiet, vai ir iespējams meklēt failus, izmantojot aizstājējzīmes?

Jā, failus ir iespējams meklēt, izmantojot aizstājējzīmes.

35) Uzskaitīt trīs Hadoop konfigurācijas failus?

Trīs konfigurācijas faili ir

core-site.xml
mapred-site.xml
hdfs-site.xml

36) Paskaidrojiet, kā jūs varat pārbaudīt, vai Namenode darbojas blakus, izmantojot komandu jps?

Papildus komandas jps izmantošanai varat arī izmantot, lai pārbaudītu, vai Namenode darbojas

/etc/init.d/hadoop-0.20-namenode statuss.

37) Paskaidrojiet, kas Hadoopā ir “karte” un kas ir “reduktors”?

Hadoopā karte ir fāze HDFS vaicājumu risināšanā. Karte nolasa datus no ievades vietas un izvada galveno vērtību pāri atbilstoši ievades tipam.

Programmā Hadoop reduktors savāc kartētāja radīto produkciju, apstrādā to un izveido pats savu gala rezultātu.

38) Kurš fails Hadoop kontrolē ziņošanu Hadoop?

Hadoop failā hadoop-metrics.properties tiek kontrolēti pārskati.

39) Lai izmantotu Hadoop, uzskaitiet tīkla prasības?

Lai izmantotu Hadoop, tīkla prasību saraksts ir šāds:

SSH savienojums bez paroles
Secure Shell (SSH) servera procesu palaišanai

40) Pieminiet, kas ir plauktu izpratne?

Plauktu apzināšanās ir veids, kā nosaukvārds nosaka, kā izvietot blokus, pamatojoties uz plauktu definīcijām.

41) Paskaidrojiet, kas ir Hadoop uzdevumu izsekotājs?

Uzdevumu izsekotājs Hadoop ir vergu mezglu dēmons klasterī, kas pieņem uzdevumus no JobTracker. Tas arī ik pēc dažām minūtēm izsūta sirdsdarbības ziņojumus JobTracker, lai apstiprinātu, ka JobTracker joprojām ir dzīvs.

42) Pieminiet, kādi dēmoni darbojas galvenajā mezglā un vergu mezglos?

Galvenajā mezglā palaistie dēmoni ir "NameNode"
Katrā vergu mezglā palaistie dēmoni ir “Task Tracker” un “Data”

43) Paskaidrojiet, kā jūs varat atkļūdot Hadoop kodu?

Populārākās Hadoop koda atkļūdošanas metodes ir šādas:

Izmantojot tīmekļa saskarni, ko nodrošina Hadoop framework
Izmantojot skaitītājus

44) Paskaidrojiet, kas ir glabāšanas un aprēķināšanas mezgli?

Uzglabāšanas mezgls ir mašīna vai dators, kurā atrodas jūsu failu sistēma, lai glabātu apstrādes datus
Aprēķina mezgls ir dators vai mašīna, kurā tiks izpildīta jūsu faktiskā biznesa loģika.

45) Pieminiet, kāda ir konteksta objekta izmantošana?

Konteksta objekts ļauj kartētājam mijiedarboties ar pārējo Hadoop

sistēmā. Tas ietver darba konfigurācijas datus, kā arī saskarnes, kas ļauj izstarot izvadi.

46) Pieminiet, kas ir nākamais solis pēc Mapper vai MapTask?

Nākamais solis pēc Mapper vai MapTask ir tas, ka Mapper izeja tiek sakārtota, un izejai tiks izveidoti nodalījumi.

47) Pieminiet, kāds ir Hadoop noklusējuma sadalītāja numurs?

Programmā Hadoop noklusējuma sadalītājs ir sadalītājs “Hash”.

48) Paskaidrojiet, kāds ir programmas RecordReader mērķis Hadoopā?

Programmā Hadoop RecordReader ielādē datus no tā avota un pārvērš tos (atslēga, vērtība) pāros, kas piemēroti Mapper lasīšanai.

49) Paskaidrojiet, kā dati tiek sadalīti pirms to nosūtīšanas reduktoram, ja Hadoop nav definēts neviens pielāgots sadalītājs?

Ja Hadoop nav definēts neviens pielāgots sadalītājs, noklusējuma sadalītājs aprēķina atslēgas jaukšanas vērtību un piešķir nodalījumu, pamatojoties uz rezultātu.

50) Paskaidrojiet, kas notiek, kad Hadops radīja 50 uzdevumus darbam un viens no uzdevumiem neizdevās?

Ja uzdevums neizdosies vairāk nekā noteikts ierobežojums, tas vēlreiz restartēs citu TaskTracker.

51) Pieminiet, kā vislabāk kopēt failus starp HDFS kopām?

Vislabākais failu kopēšanas veids starp HDFS kopām ir vairāku mezglu un komandas distcp izmantošana, tāpēc darba slodze tiek koplietota.

52) Pieminiet, kāda ir atšķirība starp HDFS un NAS?

HDFS datu bloki tiek sadalīti pa visu klastera mašīnu lokālajiem diskiem, savukārt NAS dati tiek glabāti speciālā aparatūrā.

53) Pieminiet, kā Hadoop atšķiras no citiem datu apstrādes rīkiem?

Programmā Hadoop varat palielināt vai samazināt kartētāju skaitu, neuztraucoties par apstrādājamo datu apjomu.

54) Pieminiet, kādu darbu veic konf klases pārstāvji?

Darbu konf. Klase atdala dažādus darbus, kas darbojas vienā klasterī. Tas veic darba līmeņa iestatījumus, piemēram, darba deklarēšanu reālā vidē.

55) Pieminiet, kas ir Hadoop MapReduce API līgums par atslēgu un vērtību klasi?

Atslēgu un vērtību klasei ir divi Hadoop MapReduce API līgumi

Vērtībai jānosaka interfeiss org.apache.hadoop.io.Writable
Galvenais ir jādefinē interfeiss org.apache.hadoop.io.WritableComparable

56) Pieminiet, kādi ir trīs režīmi, kuros var palaist Hadoop?

Trīs režīmi, kuros var palaist Hadoop, ir

Pseido izplatītais režīms
Atsevišķs (vietējais) režīms
Pilnībā izplatīts režīms

57) Pieminiet, ko dara teksta ievades formāts?

Teksta ievades formāts izveidos līnijas objektu, kas ir heksadecimāls skaitlis. Vērtība tiek uzskatīta par veselu rindas tekstu, bet atslēga - par līnijas objektu. Kartētājs saņem vērtību kā “text” parametrs, bet atslēga kā “longwriteable” parametrs.

58) Pieminiet, cik daudz InputSplits ir izveidojis Hadoop Framework?

Hadoops veiks 5 dalījumus

1 sadalījums 64K failiem
2 sadalījumi 65 MB failiem
2 sadalījumi 127 MB failiem

59) Pieminiet, kas tiek izplatīts kešatmiņā Hadoop?

Izplatītā kešatmiņa Hadoop ir iespēja, ko nodrošina MapReduce framework. Darba izpildes laikā to izmanto, lai kešatmiņā saglabātu failu. Pirms jebkura uzdevuma izpildes šajā mezglā ietvars kopē nepieciešamos failus vergu mezglā.

60) Paskaidrojiet, kā Hadoop Classpath spēlē svarīgu lomu, apturot vai startējot Hadoop dēmonos?

Classpath sastāv no direktoriju saraksta, kas satur burku failus, lai apturētu vai sāktu dēmonus.