Datu inženiera intervijas 62 populārākie jautājumi un amp; Atbildes

Anonim

Šeit ir bieži uzdotie datu inženieru intervijas jautājumi gan iesācējiem, gan pieredzējušiem kandidātiem, lai iegūtu pareizo darbu.

1) Izskaidrojiet datu inženieriju.

Datu inženierija ir termins, ko lieto lielajos datos. Tas koncentrējas uz datu vākšanas un izpētes izmantošanu. No dažādiem avotiem iegūtie dati ir tikai neapstrādāti dati. Datu inženierija palīdz šos neapstrādātos datus pārveidot noderīgā informācijā.

2) Kas ir datu modelēšana?

Datu modelēšana ir sarežģītas programmatūras projektēšanas dokumentēšanas metode kā diagramma, lai ikviens to varētu viegli saprast. Tas ir konceptuāls datu objektu attēlojums, kas ir saistīts starp dažādiem datu objektiem un noteikumiem.

3) Datu modelēšanā uzskaitiet dažādus dizaina shēmu veidus

Datu modelēšanā galvenokārt ir divu veidu shēmas: 1) Zvaigžņu shēma un 2) Sniegpārslu shēma.

4) Izšķir strukturētos un nestrukturētos datus

Tālāk ir atšķirība starp strukturētiem un nestrukturētiem datiem:

Parametrs Strukturētie dati Nestrukturēti dati
Uzglabāšana DBVS Nepārvaldītas failu struktūras
Standarta ADO.net, ODBC un SQL STMP, XML, CSV un SMS
Integrācijas rīks ELT (ekstrakts, pārveidošana, ielāde) Manuāla datu ievadīšana vai pakešu apstrāde, kas ietver kodus
mērogošana Shēmas mērogošana ir sarežģīta Mērogošana ir ļoti vienkārša.

5) Izskaidrojiet visus Hadoop lietojumprogrammas komponentus

Tālāk ir Hadoop lietojumprogrammas sastāvdaļas:

  • Hadoop Common: Tas ir kopīgs utilītu un bibliotēku kopums, ko Hadoop izmanto.
  • HDFS: šī Hadoop lietojumprogramma attiecas uz failu sistēmu, kurā tiek glabāti Hadoop dati. Tā ir izplatīta failu sistēma ar lielu joslas platumu.
  • Hadoop MapReduce: Tas ir balstīts uz liela mēroga datu apstrādes nodrošināšanas algoritmu.
  • Hadoop YARN: To izmanto resursu pārvaldībai Hadoop klasterī. To var izmantot arī uzdevumu plānošanai lietotājiem.

6) Kas ir NameNode?

Tas ir HDFS galvenais elements. Tajā tiek glabāti HDFS dati un izsekoti dažādi kopu faili. Šeit faktiskie dati netiek saglabāti. Dati tiek glabāti DataNodes.

7) Definējiet Hadoop straumēšanu

Tā ir utilīta, kas ļauj izveidot karti, samazina darbavietas un pakļauj tās noteiktai kopai.

8) Kāda ir pilna HDFS forma?

HDFS nozīmē Hadoop izplatīto failu sistēmu.

9) Definējiet bloķēšanas un bloķēšanas skeneri HDFS

Bloki ir mazākā datu faila vienība. Hadops automātiski sadala milzīgus failus mazos gabaliņos.

Bloķēšanas skeneris pārbauda bloku sarakstu, kas tiek parādīti DataNode.

10) Kādas ir darbības, kas notiek, kad bloķēšanas skeneris atklāj bojātu datu bloku?

Šīs darbības notiek, kad bloķēšanas skeneris atrod bojātu datu bloku:

1) Pirmkārt, kad bloķēšanas skeneris atrod bojātu datu bloku, DataNode ziņo NameNode

2) NameNode sāk jaunas kopijas izveidošanas procesu, izmantojot bojātā bloka kopiju.

3) Pareizo kopiju replikāciju skaits mēģina saskaņot ar replikācijas koeficientu. Ja atrastā atbilstība ir bojāta, datu bloks netiks izdzēsts.

11) Nosauciet divus ziņojumus, kurus NameNode saņem no DataNode?

Ir divi ziņojumi, kurus NameNode saņem no DataNode. Tie ir 1) bloķēšanas ziņojums un 2) sirdsdarbība.

12) Uzskaitiet dažādus XML konfigurācijas failus Hadoop?

Hadoop ir pieci XML konfigurācijas faili:

  • Mapred-site
  • Galvenā vietne
  • HDFS vietne
  • Dzijas vietne

13) Kādi ir četri lielo datu V?

Četri lielo datu V ir:

  • Ātrums
  • Šķirne
  • Skaļums
  • Patiesība

14) Paskaidrojiet Hadoop iezīmes

Svarīgas Hadoop funkcijas ir:

  • Tā ir atvērtā koda sistēma, kas ir pieejama bezmaksas programmatūra.
  • Hadoop ir saderīgs ar daudziem aparatūras veidiem, un tam ir viegli piekļūt jaunai aparatūrai noteiktā mezglā.
  • Hadoop atbalsta ātrāku izplatītu datu apstrādi.
  • Tas datus glabā klasterī, kas nav atkarīgs no pārējām operācijām.
  • Hadoop ļauj katram blokam izveidot 3 kopijas ar dažādiem mezgliem.

15) Paskaidrojiet galvenās Reducer metodes

  • setup (): To izmanto, lai konfigurētu parametrus, piemēram, ievades datu lielumu un sadalīto kešatmiņu.
  • tīrīšana (): šo metodi izmanto, lai notīrītu pagaidu failus.
  • reducēt (): Tā ir reduktora sirds, kuru vienā taustiņā izsauc vienreiz ar saistīto samazināto uzdevumu

16) Kāds ir COSHH saīsinājums?

COSHH saīsinājums ir uz klasifikāciju un optimizāciju balstīts grafiks neviendabīgām Hadoop sistēmām.

17) Izskaidrojiet zvaigžņu shēmu

Zvaigžņu shēma vai Zvaigžņu pievienošanās shēma ir vienkāršākais datu noliktavas shēmas veids. To sauc par zvaigžņu shēmu, jo tā struktūra ir līdzīga zvaigznei. Zvaigznes shēmā zvaigznes centrā var būt viena faktu tabula un vairākas saistītas dimensiju tabulas. Šo shēmu izmanto, lai vaicātu lielām datu kopām.

18) Kā izvietot lielo datu risinājumu?

Veiciet šīs darbības, lai izvietotu lielo datu risinājumu.

1) Integrējiet datus, izmantojot tādus datu avotus kā RDBMS, SAP, MySQL, Salesforce

2) Saglabājiet iegūtos datus vai nu NoSQL datu bāzē, vai HDFS.

3) Izvietojiet lielo datu risinājumu, izmantojot tādas apstrādes struktūras kā Pig, Spark un MapReduce.

19) Paskaidrojiet FSCK

Failu sistēmas pārbaude vai FSCK ir komanda, kuru izmanto HDFS. FSCK komandu izmanto, lai pārbaudītu neatbilstības un problēmas failā.

20) Paskaidrojiet sniegpārslu shēmu

Sniegpārslu shēma ir Zvaigžņu shēmas paplašinājums, un tā pievieno papildu dimensijas. To sauc par sniegpārsliņu, jo tā diagramma izskatās kā sniegpārsla. Dimensiju tabulas ir normalizētas, tādējādi dati tiek sadalīti papildu tabulās.

21) Izšķir zvaigžņu un sniegpārslu shēmu

Zvaigzne Sniega pārslu shēma
Dimensiju hierarhijas tiek saglabātas dimensiju tabulā. Katra hierarhija tiek saglabāta atsevišķās tabulās.
Datu atlaišanas iespējas ir lielas Datu atlaišanas iespējas ir mazas.
Tam ir ļoti vienkāršs DB dizains Tam ir sarežģīts DB dizains
Nodrošiniet ātrāku kubu apstrādes veidu Kubu apstrāde ir lēna sarežģītās savienojuma dēļ.

22) Izskaidrojiet Hadoop izplatīto failu sistēmu

Hadoop darbojas ar mērogojamām izplatītām failu sistēmām, piemēram, S3, HFTP FS, FS un HDFS. Hadoop izplatītā failu sistēma tiek veidota Google failu sistēmā. Šī failu sistēma ir veidota tā, lai to varētu viegli darbināt lielā datorsistēmas klasterī.

23) Paskaidrojiet galvenos datu inženiera pienākumus

Datu inženieriem ir daudz pienākumu. Viņi pārvalda datu avotu sistēmu. Datu inženieri vienkāršo sarežģītu datu struktūru un novērš datu atkārtotu dublēšanu. Daudzas reizes tie nodrošina arī ELT un datu pārveidošanu.

24) Kāda ir pilna dzijas forma?

Pilna YARN forma ir vēl viens resursu sarunu vedējs.

25) Uzskaitiet dažādus režīmus Hadoop

Hadoop režīmi ir 1) atsevišķais režīms 2) pseido izplatītais režīms 3) pilnībā izplatītais režīms.

26) Kā panākt drošību Hadoopā?

Lai panāktu drošību Hadoop, veiciet šādas darbības:

1) Pirmais solis ir klienta autentifikācijas kanāla nostiprināšana serverī. Nodrošiniet klientam laika zīmogu.

2) Otrajā solī klients izmanto saņemto laika zīmogu, lai pieprasītu TGS dienesta biļetei.

3) Pēdējā solī klients izmanto pakalpojuma biļeti pašidentificēšanai uz noteiktu serveri.

27) Kas ir sirdsdarbība Hadoopā?

Programmā Hadoop NameNode un DataNode sazinās savā starpā. Sirdsdarbība ir signāls, ko DataNode regulāri nosūta NameNode, lai parādītu tā klātbūtni.

28) Hadoopā nošķiriet NAS un DAS

NAS DAS
Uzglabāšanas jauda ir no 10 9 līdz 10 12 baitā. Krātuves ietilpība ir 10 9 baiti.
Pārvaldības izmaksas par GB ir mērenas. Pārvaldības izmaksas par vienu GB ir augstas.
Pārsūtiet datus, izmantojot Ethernet vai TCP / IP. Pārsūtiet datus, izmantojot IDE / SCSI

29) Uzskaitiet svarīgus laukus vai valodas, kuras izmanto datu inženieris

Šeit ir daži lauki vai valodas, ko izmanto datu inženieris:

  • Varbūtība, kā arī lineārā algebra
  • Mašīnmācīšanās
  • Tendenču analīze un regresija
  • Strops QL un SQL datu bāzes

30) Kas ir lielie dati?

Tas ir liels daudzums strukturētu un nestrukturētu datu, kurus nevar viegli apstrādāt, izmantojot tradicionālās datu glabāšanas metodes. Datu inženieri lielo datu pārvaldīšanai izmanto Hadoop.

31) Kas ir FIFO plānošana?

Tas ir Hadoop Job plānošanas algoritms. Šajā FIFO plānošanā reportieris atlasa darbus no darba rindas, vispirms vecāko darbu.

32) Pieminiet noklusējuma porta numurus, kuros uzdevumu izsekotājs, NameNode un darba izsekotājs darbojas Hadoop

Noklusējuma porta numuri, kuros uzdevumu izsekotājs, NameNode un darba izsekotājs darbojas Hadoop, ir šādi:

  • Uzdevumu izsekotājs darbojas 50060 ostā
  • NameNode darbojas 50070 ostā
  • Job Tracker darbojas 50030 ostā

33) Kā atspējot bloķēšanas skeneri HDFS datu mezglā

Lai atspējotu bloķēšanas skeneri HDFS datu mezglā, iestatiet dfs.datanode.scan.period.hours uz 0.

34) Kā noteikt attālumu starp diviem mezgliem Hadoopā?

Attālums ir vienāds ar attāluma summu līdz tuvākajiem mezgliem. Metode getDistance () tiek izmantota, lai aprēķinātu attālumu starp diviem mezgliem.

35) Kāpēc lietot Hadoop preču aparatūru?

Preču aparatūru ir viegli iegūt un tā ir pieejama. Tā ir sistēma, kas ir saderīga ar Windows, MS-DOS vai Linux.

36) Definējiet replikācijas koeficientu HDFS

Replikācijas koeficients ir faila kopiju kopējais skaits sistēmā.

37) Kādi dati tiek saglabāti vietnē NameNode?

Namenode glabā HDFS metadatus, piemēram, informāciju par blokiem un nosaukumvietas informāciju.

38) Ko tu domā ar plauktu izpratni?

Haddop klasterī Namenode izmanto datanodu, lai uzlabotu tīkla trafiku, lasot vai rakstot jebkuru failu, kas atrodas tuvāk blakus esošajam statīvam, lai lasītu vai rakstītu pieprasījumu. Namenode uztur katra DataNode plaukta ID, lai iegūtu informāciju par plauktu. Hadoopā šo koncepciju sauc par plauktu izpratni.

39) Kādas ir sekundārā NameNode funkcijas?

Sekojošās ir sekundārā NameNode funkcijas:

  • FsImage, kas saglabā EditLog un FsImage faila kopiju.
  • NameNode avārija: ja NameNode avarē, tad sekundārā NameNode FsImage var izmantot, lai atjaunotu NameNode.
  • Kontrolpunkts: sekundārais nosaukums mezgls to izmanto, lai apstiprinātu, ka HDFS dati nav bojāti.
  • Atjaunināt: tas automātiski atjaunina failu EditLog un FsImage. Tas palīdz atjaunināt FsImage failu sekundārajā NameNode.

40) Kas notiek, ja NameNode ir uz leju un lietotājs iesniedz jaunu darbu?

NameNode ir vienīgais Hadoop kļūmes punkts, tāpēc lietotājs nevar iesniegt jaunu darbu, kuru nevar izpildīt. Ja NameNode ir uz leju, darbs var neizdoties, jo šim lietotājam pirms jebkura darba izpildes jāgaida, kamēr NameNode tiek restartēts.

41) Kādas ir reduktora pamatfāzes Hadoopā?

Hadoopā ir trīs reduktora pamata fāzes:

1. Jaukšana: Reducer šeit kopē Mapper izvadi.

2. Kārtot: Kārtojot, Hadoop kārto ievadi Reducer, izmantojot to pašu taustiņu.

3. Samazināt: Šajā fāzē tiek samazinātas ar atslēgu saistītās izejas vērtības, lai datus konsolidētu galīgajā izvadā.

42) Kāpēc Hadoop izmanto konteksta objektu?

Hadoop Framework izmanto Context objektu ar Mapper klasi, lai mijiedarbotos ar atlikušo sistēmu. Konteksta objekts iegūst konstruktora informāciju par sistēmas konfigurāciju un darbu.

Mēs izmantojam konteksta objektu, lai nodotu informāciju iestatīšanas (), tīrīšanas () un kartes () metodēs. Šis objekts padara svarīgu informāciju pieejamu kartes darbību laikā.

43) Definējiet kombinatoru Hadoop

Tas ir izvēles solis starp Map un Reduce. Kombinators ņem izvadi no kartes funkcijas, izveido galveno vērtību pārus un iesniedz Hadoop Reducer. Kombinera uzdevums ir apkopot Map gala rezultātu kopsavilkuma ierakstos ar identisku atslēgu.

44) Kāds ir HDFS noklusējuma replikācijas koeficients, ko tas norāda?

HDFS pieejamais noklusējuma replikācijas koeficients ir trīs. Noklusējuma replikācijas koeficients norāda, ka katram datiem būs trīs kopijas.

45) Ko jūs domājat datu lokalizāciju Hadoopā?

Lielo datu sistēmā datu apjoms ir milzīgs, un tāpēc nav jēgas pārvietot datus pa tīklu. Tagad Hadoops mēģina pārvietot skaitļošanu tuvāk datiem. Tādā veidā dati paliek lokāli glabātajai vietai.

46) Definējiet līdzsvarotāju HDFS

HDFS līdzsvarotājs ir administrators, kuru administrēšanas darbinieki izmanto, lai līdzsvarotu datus starp DataNodes un pārvietotu blokus no pārmērīgi izmantotiem uz neizmantotiem mezgliem.

47) Izskaidrojiet HDFS drošo režīmu

Tas ir tikai lasāms NameNode režīms klasterī. Sākumā NameNode ir Safemode. Tas novērš rakstīšanu failu sistēmā Safemode. Šajā laikā tā vāc datus un statistiku no visiem DataNodes.

48) Kāda ir izplatītās kešatmiņas nozīme Apache Hadoop?

Hadoop ir noderīga lietderības funkcija, tā sauktā izplatītā kešatmiņa, kas uzlabo darbu veiktspēju, kešot failus, kurus izmanto lietojumprogrammas. Lietojumprogramma var norādīt failu kešatmiņai, izmantojot JobConf konfigurāciju.

Hadoop framework padara šo failu kopiju mezglos par vienu, kurš uzdevums ir jāizpilda. Tas tiek darīts pirms uzdevuma izpildes sākuma. Izplatītā kešatmiņa atbalsta tikai lasāmu failu, kā arī rāvējslēdzēju un burku failu izplatīšanu.

49) Kas ir metastore stropā?

Tajā tiek glabāta shēma, kā arī Hive tabulas atrašanās vieta.

Stropu tabulā ir definēti, kartējumi un metadati, kas tiek glabāti Metastore. To var saglabāt RDBMS, ko atbalsta JPOX.

50) Ko nozīmē SerDe stropā?

SerDe ir īss nosaukums Serializer vai Deserializer. Stropā SerDe ļauj nolasīt datus no tabulas uz jebkuru lauku un rakstīt uz konkrētu lauku jebkurā vēlamajā formātā.

51) Uzskaitiet Hive datu modelī pieejamos komponentus

Stropu datu modelī ir šādi komponenti:

  • Galdi
  • Starpsienas
  • Kausi

52) Paskaidrojiet stropa izmantošanu Hadoop ekosistēmā.

Strops nodrošina saskarni, lai pārvaldītu Hadoop ekosistēmā saglabātos datus. Stropu izmanto kartēšanai un darbam ar HBase tabulām. Stropu vaicājumi tiek pārveidoti par MapReduce darbavietām, lai paslēptu sarežģītību, kas saistīta ar MapReduce darbu izveidi un palaišanu.

53) Hive atbalsta dažādu sarežģītu datu veidu / kolekciju sarakstu

Strops atbalsta šādus sarežģītus datu tipus:

  • Karte
  • Strukturālā
  • Masīvs
  • Savienība

54) Paskaidrojiet, kā tiek izmantots .hiverc fails stropā?

Stropā .hiverc ir inicializācijas fails. Sākotnēji šis fails tiek ielādēts, kad mēs startējam Hive komandrindas saskarni (CLI). Mēs varam iestatīt parametru sākotnējās vērtības .hiverc failā.

55) Vai vienā datu failā stropā ir iespējams izveidot vairāk nekā vienu tabulu?

Jā, mēs varam izveidot vairāk nekā vienu tabulas shēmu datu failam. Hive saglabā shēmu Hive Metastore. Pamatojoties uz šo shēmu, mēs varam iegūt atšķirīgus rezultātus no tiem pašiem datiem.

56) Izskaidrojiet dažādas SerDe ieviešanas iespējas, kas pieejamas stropā

Stropā ir pieejamas daudzas SerDe ieviešanas iespējas. Varat arī rakstīt savu pielāgoto SerDe ieviešanu. Tālāk ir minēti daži slaveni SerDe ieviešanas varianti:

  • OpenCSVSerde
  • RegexSerDe
  • NorobežotsJSONSerDe
  • ByteStreamTypedSerDe

57) Uzskaitiet stropā pieejamās tabulu ģenerēšanas funkcijas

Tālāk ir tabulu ģenerējošo funkciju saraksts:

  • Eksplodēt (masīvs)
  • JSON_tuple ()
  • Kaudze()
  • Eksplodēt (karte)

58) Kas ir šķībs galds stropā?

Slīpa tabula ir tabula, kurā kolonnu vērtības ir biežāk. Programmā Hive, kad izveides laikā mēs norādām tabulu kā SKEWED, šķības vērtības tiek ierakstītas atsevišķos failos, un atlikušās vērtības nonāk citā failā.

59) Uzskaitiet objektus, kas izveidoti, izveidojot priekšrakstu MySQL.

Objekti, kas izveidoti, izveidojot priekšrakstu MySQL, ir šādi:

  • Datu bāze
  • Indekss
  • Tabula
  • Lietotājs
  • Procedūra
  • Trigeris
  • Notikums
  • Skats
  • Funkcija

60) Kā MySQL redzēt datu bāzes struktūru?

Lai MySQL redzētu datu bāzes struktūru, varat to izmantot

DESCRIBE komanda. Šīs komandas sintakse ir DESCRIBE Table name ;.

61) Kā meklēt noteiktu virkni MySQL tabulas kolonnā?

Izmantojiet regex operatoru, lai meklētu virkni MySQL kolonnā. Šeit mēs varam arī definēt dažādus regulārās izteiksmes veidus un meklēt regex lietošanu.

62) Paskaidrojiet, kā datu analīze un lielie dati var palielināt uzņēmuma ieņēmumus?

Tālāk ir aprakstīti veidi, kā datu analīze un lielie dati var palielināt uzņēmuma ieņēmumus:

  • Izmantojiet datus efektīvi, lai pārliecinātos, ka bizness pieaug.
  • Palieliniet klienta vērtību.
  • Analītiski pievēršoties personāla līmeņa prognožu uzlabošanai.
  • Organizāciju ražošanas izmaksu samazināšana.