Darba intervijās tiek bieži uzdotie jautājumi gan iesācējiem, gan pieredzējušiem Datu zinātniekiem.
1. Kas ir datu zinātne?
Datu zinātne ir algoritmu, rīku un mašīnmācīšanās tehnikas kombinācija, kas palīdz jums atrast kopējus slēptos modeļus no dotajiem neapstrādātiem datiem.
2. Kas ir loģistikas regresija datu zinātnē?
Loģistisko regresiju sauc arī par logit modeli. Tā ir metode, kā prognozēt bināro iznākumu, izmantojot lineāru prediktoru mainīgo kombināciju.
3. Nosauciet trīs veidu aizspriedumus, kas var notikt izlases laikā
Paraugu ņemšanas procesā ir trīs veidu aizspriedumi, kas ir:
- Atlases neobjektivitāte
- Pārklājuma neobjektivitāte
- Izdzīvošanas aizspriedumi
4. Apspriediet lēmumu koka algoritmu
Lēmumu koks ir populārs uzraudzīts mašīnmācīšanās algoritms. To galvenokārt izmanto regresijas un klasifikācijas vajadzībām. Tas ļauj sadalīt datu kopu mazākās apakškopās. Lēmumu koks var apstrādāt gan kategoriskus, gan skaitliskus datus.
5. Kāda ir Prior varbūtība un varbūtība?
Iepriekšējā varbūtība ir atkarīgā mainīgā proporcija datu kopā, bet varbūtība ir varbūtība klasificēt noteiktu novērotāju kāda cita mainīgā klātbūtnē.
6. Izskaidrot ieteikumu sistēmas?
Tā ir informācijas filtrēšanas paņēmienu apakšklase. Tas palīdz jums paredzēt preferences vai vērtējumus, kurus lietotāji varētu piešķirt produktam.
7. Nosauciet trīs lineārā modeļa izmantošanas trūkumus
Trīs lineārā modeļa trūkumi ir:
- Pieņēmums par kļūdu linearitāti.
- Jūs nevarat izmantot šo modeli bināro vai skaitīšanas rezultātu iegūšanai
- Ir daudz problēmu ar pārspīlēšanu, kuras to nevar atrisināt
8. Kāpēc jums jāveic atkārtota paraugu ņemšana?
Atkārtota paraugu ņemšana notiek šādos gadījumos:
- Parauga statistikas precizitātes novērtēšana, nejauši izvēloties, aizstājot no datu punkta kopas vai izmantojot pieejamu datu apakškopu
- Veicot nepieciešamos testus, datu punktos aizstāj etiķetes
- Modeļu apstiprināšana, izmantojot nejaušas apakškopas
9. Uzskaitiet Python bibliotēkas, kas izmantotas datu analīzei un zinātniskiem aprēķiniem.
- SciPy
- Pandas
- Matplotlib
- NumPy
- SciKit
- Seaborn
10. Kas ir jaudas analīze?
Jaudas analīze ir neatņemama eksperimentālā projekta sastāvdaļa. Tas palīdz jums noteikt izlases lielumu, lai noskaidrotu attiecīgā lieluma ietekmi no cēloņa ar noteiktu pārliecības līmeni. Tas arī ļauj izvietot noteiktu varbūtību izlases lieluma ierobežojumā.
11. Izskaidrojiet sadarbības filtrēšanu
Sadarbības filtrēšana, ko izmanto, lai meklētu pareizus modeļus, sadarbojoties viedokļiem, vairākiem datu avotiem un dažādiem aģentiem.
12. Kas ir neobjektivitāte?
Novirze ir kļūda, kas ieviesta jūsu modelī, jo mašīnmācīšanās algoritms ir pārāk vienkāršots. "Tas var izraisīt nepietiekamu atbilstību.
13. Apspriediet 'Naive' Naive Bayes algoritmā?
Naivā Bajsa algoritma modelis ir balstīts uz Bajesa teorēmu. Tas apraksta notikuma varbūtību. Tas ir balstīts uz iepriekšējām zināšanām par apstākļiem, kas varētu būt saistīti ar konkrēto notikumu.
14. Kas ir lineārā regresija?
Lineārā regresija ir statistikas programmēšanas metode, kurā mainīgā “A” rādītājs tiek prognozēts pēc otrā mainīgā “B” rādītāja. B tiek dēvēts par prognozējošo mainīgo un A kā kritērija mainīgo.
15. Norādiet starpību starp paredzamo vērtību un vidējo vērtību
Tās nav daudz atšķirību, taču abi šie termini tiek izmantoti dažādos kontekstos. Uz vidējo vērtību parasti atsaucas, apspriežot varbūtības sadalījumu, turpretī uz sagaidāmo vērtību atsaucas nejaušā mainīgā kontekstā.
16. Kāds ir A / B testēšanas mērķis?
AB testēšana, ko izmanto, lai veiktu nejaušus eksperimentus ar diviem mainīgajiem lielumiem A un B. Šīs testēšanas metodes mērķis ir noskaidrot izmaiņas tīmekļa lapā, lai maksimizētu vai palielinātu stratēģijas iznākumu.
17. Kas ir ansambļa mācīšanās?
Ansamblis ir metode, kā apvienot daudzveidīgu izglītojamo kopu, lai improvizētu par modeļa stabilitāti un paredzamo spēku. Divi Ansambļa mācību metožu veidi ir:
Maisīšana
Bagāžas metode palīdz jums ieviest līdzīgus izglītojamos mazās izlases grupās. Tas jums palīdz tuvāk prognozēt.
Palielināšana
Palielināšana ir iteratīva metode, kas ļauj pielāgot novērojuma svaru atkarībā no pēdējās klasifikācijas. Paaugstināšana samazina aizspriedumu kļūdu un palīdz izveidot spēcīgus prognozēšanas modeļus.
18. Paskaidrojiet īpašvērtību un raksturvektoru
Īpašie vektori ir paredzēti, lai izprastu lineāras transformācijas. Datu zinātniekam jāaprēķina kovariances matricas vai korelācijas īpašvektori. Īpašvērtības ir virzieni, izmantojot īpašus lineārus pārveidošanas aktus, saspiežot, pagriežot vai izstiepjot.
19. Definējiet terminu savstarpēja validācija
Krusteniskā validācija ir validācijas paņēmiens, lai novērtētu, kā statistiskās analīzes rezultāti vispārināsies neatkarīgai datu kopai. Šo metodi izmanto fonos, kur tiek prognozēts mērķis, un ir jānovērtē, cik precīzi modelis tiks paveikts.
20. Paskaidrojiet datu analīzes projekta darbības
Svarīgi analīzes projektā iesaistītie soļi:
- Izprotiet biznesa problēmu
- Izpētiet datus un rūpīgi tos izpētiet.
- Sagatavojiet datus modelēšanai, atrodot trūkstošās vērtības un pārveidojot mainīgos.
- Sāciet palaist modeli un analizējiet lielo datu rezultātu.
- Apstipriniet modeli ar jaunu datu kopu.
- Ieviesiet modeli un izsekojiet rezultātu, lai analizētu modeļa veiktspēju noteiktā laika posmā.
21. Apspriediet mākslīgos neironu tīklus
Mākslīgie neironu tīkli (ANN) ir īpašs algoritmu kopums, kas ir radikāli mainījis mašīnmācīšanos. Tas palīdz jums pielāgoties atbilstoši mainīgajam ievadam. Tātad tīkls rada vislabāko iespējamo rezultātu, nepārstrādājot izejas kritērijus.
22. Kas ir muguras pavairošana?
Neironu tīkla treniņa būtība ir muguras izplatīšanās. Tā ir neironu tīkla svaru noregulēšanas metode, kas atkarīga no kļūdu līmeņa, kas iegūts iepriekšējā laikmetā. Pareiza noregulēšana palīdz samazināt kļūdu līmeni un padarīt modeli uzticamu, palielinot tā vispārinājumu.
23. Kas ir izlases mežs?
Izlases mežs ir mašīnmācīšanās metode, kas palīdz jums veikt visu veidu regresijas un klasifikācijas uzdevumus. To lieto arī trūkstošo vērtību un novirzīto vērtību apstrādei.
24. Kāda nozīme ir izvēles neobjektivitātei?
Atlases neobjektivitāte rodas, ja nav izvēlēta īpaša nejaušināšana, izvēloties analizējamos indivīdus vai grupas vai datus. Tas liek domāt, ka dotā izlase precīzi neatspoguļo populāciju, kuru bija paredzēts analizēt.
25. Kāda ir K-klasterizācijas metode?
K-klasteru veidošana ir svarīga nepieskatīta mācību metode. Datu klasificēšanas paņēmienu, izmantojot noteiktu kopu kopu, sauc par K kopām. Tas ir izvietots grupēšanai, lai noskaidrotu datu līdzību.
26. Paskaidrojiet atšķirību starp datu zinātni un datu analīzi
Datu zinātniekiem ir jāsagatavo dati, lai iegūtu vērtīgu ieskatu, ko datu analītiķis var izmantot reālās uzņēmējdarbības scenārijos. Galvenā atšķirība starp abiem ir tā, ka datu zinātniekiem ir vairāk tehnisko zināšanu nekā biznesa analītiķiem. Turklāt viņiem nav nepieciešama izpratne par uzņēmējdarbību, kas nepieciešama datu vizualizēšanai.
27. Paskaidrojiet p vērtību?
Veicot hipotēzes pārbaudi statistikā, p vērtība ļauj noteikt rezultātu stiprumu. Tas ir skaitliskais skaitlis no 0 līdz 1. Pamatojoties uz vērtību, tas palīdzēs jums apzīmēt konkrētā rezultāta stiprumu.
28. Definējiet terminu dziļa mācīšanās
Dziļā mācīšanās ir mašīnmācīšanās apakštips. Tas attiecas uz algoritmiem, kurus iedvesmojusi struktūra, ko sauc par mākslīgajiem neironu tīkliem (ANN).
29. Paskaidrojiet metodi datu vākšanai un analīzei, lai sociālos medijus izmantotu laika apstākļu prognozēšanai.
Jūs varat savākt sociālo mediju datus, izmantojot Facebook, Twitter, Instagram API. Piemēram, tweeter mēs varam no katra tvīta izveidot tādu funkciju kā tweeted date, retweets, sekotāju saraksts utt. Pēc tam laika apstākļu prognozēšanai varat izmantot daudzfaktoru laika sēriju modeli.
30. Kad jums jāatjaunina datu zinātnes algoritms?
Jums jāatjaunina algoritms šādā situācijā:
- Jūs vēlaties, lai jūsu datu modelis attīstītos kā datu straumes, izmantojot infrastruktūru
- Datu avots mainās
Ja tā ir nestacionaritāte
31. Kas ir normāls sadalījums
Normāls sadalījums ir nepārtraukta mainīgā lieluma kopums, kas izplatīts pa normālu līkni vai zvana līknes formā. Jūs to varat uzskatīt par nepārtrauktu varbūtību sadalījumu, kas noder statistikā. Ir lietderīgi analizēt mainīgos un to attiecības, kad mēs izmantojam normālā sadalījuma līkni.
32. Kura valoda ir vislabākā teksta analīzei? R vai Python?
Python būs piemērotāks teksta analīzei, jo tas sastāv no bagātīgas bibliotēkas, kas pazīstama kā pandas. Tas ļauj izmantot augsta līmeņa datu analīzes rīkus un datu struktūras, savukārt R šo funkciju nepiedāvā.
33. Izskaidrojiet datu zinātnieku statistikas izmantošanas priekšrocības
Statistika palīdz Datu zinātniekam gūt labāku priekšstatu par klienta gaidām. Izmantojot statistikas metodi, datu zinātnieki var iegūt zināšanas par patērētāju interesi, uzvedību, iesaistīšanos, noturēšanu utt. Tas arī palīdz jums izveidot spēcīgus datu modeļus, lai apstiprinātu noteiktus secinājumus un prognozes.
34. Nosauciet dažādus padziļinātu mācību sistēmu veidus
- Pytorch
- Microsoft kognitīvo rīkkopa
- TensorFlow
- Kafija
- Ķēde
- Keras
35. Izskaidrojiet automātisko kodētāju
Automātiskie kodētāji ir mācību tīkli. Tas palīdz pārveidot ievadi izvados ar mazāk kļūdu. Tas nozīmē, ka jūs iegūsiet izvadi pēc iespējas tuvāk ievadei.
36. Definējiet Boltzmann Machine
Boltzmann mašīnas ir vienkāršs mācību algoritms. Tas palīdz atklāt tās funkcijas, kas treniņu datos atspoguļo sarežģītas likumsakarības. Šis algoritms ļauj optimizēt dotās problēmas svaru un daudzumu.
37. Paskaidrojiet, kāpēc datu tīrīšana ir būtiska un kuru metodi izmantojat, lai uzturētu tīrus datus
Netīri dati bieži noved pie nepareizas iekšpuses, kas var sabojāt jebkuras organizācijas izredzes. Piemēram, ja vēlaties veikt mērķtiecīgu mārketinga kampaņu. Tomēr mūsu dati nepareizi norāda, ka konkrēts produkts būs pieprasīts jūsu mērķauditorijai; kampaņa izgāzīsies.
38. Kas ir šķība izplatīšana un vienmērīga izplatīšana?
Novirzīts sadalījums notiek, ja dati tiek izplatīti vienā zemes gabala pusē, turpretī vienmērīgs sadalījums tiek noteikts, kad dati tiek izplatīti, diapazonā ir vienāds.
39. Kad statiskā modelī notiek nepietiekama uzstādīšana?
Nepietiekama situācija rodas, ja statistikas modelis vai mašīnmācīšanās algoritms nespēj uztvert datu pamatā esošo tendenci.
40. Kas ir papildmācība?
Mācības pastiprināšana ir mācīšanās mehānisms, kā situācijas kartēt ar darbībām. Gala rezultātam vajadzētu palīdzēt palielināt binārā atalgojuma signālu. Šajā metodē izglītojamajam netiek teikts, kura darbība jāveic, bet tā vietā viņam jāatklāj, kura darbība piedāvā maksimālu atlīdzību. Tā kā šī metode balstās uz atlīdzības / soda mehānismu.
41. Nosaukiet parasti lietotos algoritmus.
Četri datu zinātnieka visbiežāk izmantotie algoritmi ir:
- Lineārā regresija
- Loģistiskā regresija
- Gadījuma mežs
- KNN
42. Kas ir precizitāte?
Precizitāte ir visbiežāk izmantotā kļūdu metrika ir n klasifikācijas mehānisms. Tās diapazons ir no 0 līdz 1, kur 1 ir 100%
43. Kas ir vienvirziena analīze?
Analīze, kas vienlaikus tiek lietota nevienam atribūtam, tiek dēvēta par vienveidīgo analīzi. Boxplot ir plaši izmantots, vienveidīgs modelis.
44. Kā jūs pārvarat izaicinājumus saviem atklājumiem?
Lai pārvarētu manas atrašanas problēmas, ir jāveicina diskusija. Parādiet vadību un ievērojiet dažādas iespējas.
45. Paskaidrojiet kopu paraugu ņemšanas tehniku datu zinātnē
Klasteru atlases metode tiek izmantota, ja ir grūti izpētīt mērķa populāciju, kas sadalīta pa pāriem, un nevar izmantot vienkāršu izlases izlasi.
46. Norādiet atšķirību starp apstiprināšanas kopu un testa kopu
Validācijas komplekts galvenokārt tiek uzskatīts par apmācības komplekta daļu, jo to izmanto parametru izvēlei, kas palīdz izvairīties no topošā modeļa pārmērīgas uzstādīšanas.
Kamēr testēšanas komplekts tiek izmantots apmācīta mašīnmācīšanās modeļa veiktspējas pārbaudei vai novērtēšanai.
47. Izskaidrojiet terminu Binomial Probability Formula?
"Binomiālais sadalījums satur visu iespējamo panākumu varbūtību N izmēģinājumos neatkarīgiem notikumiem, kuru varbūtība ir π."
48. Kas ir atsaukšana?
Atsaukšana ir patiesā pozitīvā un faktiskā pozitīvā rādītāja attiecība. Tas svārstās no 0 līdz 1.
49. Apspriediet normālo sadalījumu
Normāls sadalījums, kas vienādi sadalīts, vidējais, vidējais un režīms ir vienādi.
50. Strādājot pie datu kopas, kā jūs varat izvēlēties svarīgus mainīgos? Paskaidrojiet
Varat izmantot šādas mainīgo izvēles metodes:
- Pirms svarīgu mainīgo atlasīšanas noņemiet korelējošos mainīgos
- Izmantojiet lineāro regresiju un atlasiet mainīgos, kas ir atkarīgi no šīs p vērtības.
- Izmantojiet atlasi Atpakaļ, Pārsūtīt uz priekšu un Pakāpeniski
- Izmantojiet Xgboost, Random Forest un diagrammas mainīgo nozīmības diagrammu.
- Izmēriet informācijas iegūšanu par norādīto funkciju kopu un atbilstoši atlasiet n galvenās funkcijas.
51. Vai ir iespējams uztvert korelāciju starp nepārtraukto un kategorisko mainīgo?
Jā, mēs varam izmantot kovariācijas tehnikas analīzi, lai attēlotu saistību starp nepārtrauktajiem un kategoriskajiem mainīgajiem.
52. Ja kategorisko mainīgo traktētu kā nepārtrauktu mainīgo, tiktu iegūts labāks pareģojošais modelis?
Jā, kategoriskā vērtība būtu jāuzskata par nepārtrauktu mainīgo tikai tad, ja mainīgajam ir kārtas raksturs. Tātad tas ir labāk prognozējošs modelis.