Kas ir Data Lake? Tā ir arhitektūra

Satura rādītājs:

Anonim

Kas ir Data Lake?

Datu ezers ir krātuves krātuve, kurā var uzglabāt lielu daudzumu strukturētu, daļēji strukturētu un nestrukturētu datu. Tā ir vieta, kur glabāt jebkura veida datus tā dabiskajā formātā, bez konta lieluma vai faila ierobežojumiem. Tas piedāvā lielu datu daudzumu, lai palielinātu analītisko veiktspēju un vietējo integrāciju.

Datu ezers ir kā liels konteiners, kas ir ļoti līdzīgs īstam ezeram un upēm. Tāpat kā ezerā, kurā ienāk vairākas pietekas, arī datu ezerā ir strukturēti dati, nestrukturēti dati, mašīnas no mašīnas, žurnāli, kas plūst cauri reāllaikā.

Datu ezers demokratizē datus un ir rentabls veids, kā visus organizācijas datus uzglabāt vēlākai apstrādei. Pētījumu analītiķis var koncentrēties uz nozīmes modeļu atrašanu datos, nevis pašos datos.

Atšķirībā no hierarhiskas datu programmatūras mājas, kurā dati tiek glabāti mapē Faili un mapes, Datu ezeram ir plakana arhitektūra. Katram datu ezeram Datu ezerā tiek piešķirts unikāls identifikators un marķēts ar metadatu informācijas kopu.

Šajā apmācībā jūs uzzināsiet

  • Kas ir Data Lake?
  • Kāpēc Data Lake?
  • Datu ezera arhitektūra
  • Galvenās datu ezera koncepcijas
  • Datu ezera brieduma posmi
  • Labākā prakse datu ezera ieviešanai:
  • Atšķirība starp datu ezeriem un datu noliktavu
  • Data Lake izmantošanas priekšrocības un riski:

Kāpēc Data Lake?

Datu ezera veidošanas galvenais mērķis ir piedāvāt datu zinātniekiem neuzlabotu skatu uz datiem.

Datu ezera izmantošanas iemesli ir:

  • Sākoties uzglabāšanas dzinējiem, piemēram, Hadoop, dažādas informācijas uzglabāšana ir kļuvusi vienkārša. Nav nepieciešams modelēt datus uzņēmuma mēroga shēmā ar Data Lake.
  • Palielinoties datu apjomam, datu kvalitātei un metadatiem, palielinās arī analīžu kvalitāte.
  • Data Lake piedāvā biznesa veiklību
  • Mašīnmācību un mākslīgo intelektu var izmantot, lai veiktu rentablas prognozes.
  • Tā piedāvā konkurences priekšrocības ieviešanas organizācijai.
  • Nav datu glabāšanas struktūras. Data Lake sniedz 360 grādu skatu uz klientiem un padara analīzi stingrāku.

Datu ezera arhitektūra

Attēlā parādīta biznesa datu ezera arhitektūra. Zemākie līmeņi atspoguļo datus, kas pārsvarā atrodas miera stāvoklī, bet augšējie līmeņi parāda reāllaika darījumu datus. Šie dati plūst caur sistēmu bez latentuma vai ar nelielu latentumu. Datu ezera arhitektūrā ir svarīgi līmeņi:

  1. Norīšanas līmenis : līmeņi kreisajā pusē attēlo datu avotus. Datus datu ezerā varēja ielādēt partijās vai reāllaikā
  2. Ieskatu līmenis: Labajā pusē esošie līmeņi atspoguļo pētījuma pusi, kur tiek izmantoti ieskati no sistēmas. Datu analīzei varētu izmantot SQL, NoSQL vaicājumus vai pat Excel.
  3. HDFS ir rentabls risinājums gan strukturētiem, gan nestrukturētiem datiem. Tā ir piezemēšanās zona visiem datiem, kas sistēmā atrodas miera stāvoklī.
  4. Destilācijas līmenis ņem datus no uzglabāšanas riepām un pārveido tos strukturētos datos, lai būtu vieglāk analizēt.
  5. Apstrādājot līmeņa palaišanas analītiskos algoritmus un lietotāju vaicājumus ar dažādiem reāllaika, interaktīviem, pakešu veidiem, lai ģenerētu strukturētus datus vienkāršākai analīzei.
  6. Vienotais operāciju līmenis regulē sistēmas pārvaldību un uzraudzību. Tas ietver revīziju un prasmju pārvaldību, datu pārvaldību, darbplūsmas pārvaldību.

Galvenās datu ezera koncepcijas

Tālāk ir sniegtas galvenās Data Lake koncepcijas, kas ir jāsaprot, lai pilnībā izprastu Data Lake arhitektūru

Datu uzņemšana

Datu uzņemšana ļauj savienotājiem iegūt datus no dažādiem datu avotiem un ielādēt datus ezerā.

Datu uzņemšana atbalsta:

  • Visu veidu strukturētie, daļēji strukturētie un nestrukturētie dati.
  • Vairākas norādes, piemēram, sērijveida, reāllaika, vienreizēja ielāde.
  • Daudzu veidu datu avoti, piemēram, Datu bāzes, Web serveri, E-pasts, IoT un FTP.

Datu glabāšana

Datu glabāšanai jābūt mērogojamai, tā piedāvā rentablu glabāšanu un ļauj ātri piekļūt datu izpētei. Tam būtu jāatbalsta dažādi datu formāti.

Datu pārvaldība

Datu pārvaldība ir organizācijā izmantoto datu pieejamības, izmantojamības, drošības un integritātes pārvaldības process.

Drošība

Drošība jāievieš katrā Datu ezera slānī. Tas sākas ar uzglabāšanu, izkraušanu un patēriņu. Pamatvajadzība ir apturēt nesankcionētu lietotāju piekļuvi. Tam vajadzētu atbalstīt dažādus rīkus, lai piekļūtu datiem ar viegli orientējamu GUI un informācijas paneļiem.

Autentifikācija, grāmatvedība, autorizācija un datu aizsardzība ir dažas svarīgas datu ezera drošības iezīmes.

Datu kvalitāte:

Datu kvalitāte ir būtiska Datu ezera arhitektūras sastāvdaļa. Dati tiek izmantoti precīzai biznesa vērtībai. Ieskatu iegūšana no sliktas kvalitātes datiem novedīs pie sliktas kvalitātes ieskatiem.

Datu atklāšana

Datu atklāšana ir vēl viens svarīgs posms, pirms varat sākt sagatavot datus vai analizēt. Šajā posmā datu apzināšanas paušanai tiek izmantota marķēšanas tehnika, organizējot un interpretējot Datu ezerā uzņemtos datus.

Datu audits

Divi galvenie datu audita uzdevumi ir izmaiņu izsekošana galvenajā datu kopā.

  1. Svarīgu datu kopas elementu izmaiņu izsekošana
  2. Uzņem, kā / kad / un kurš mainās uz šiem elementiem.

Datu audits palīdz novērtēt risku un atbilstību.

Datu cilts

Šis komponents nodarbojas ar datu izcelsmi. Tas galvenokārt nodarbojas ar to, kur tas laika gaitā mainās un kas ar to notiek. Tas atvieglo kļūdu labojumus datu analīzes procesā no sākuma līdz galamērķim.

Datu izpēte

Tas ir datu analīzes sākuma posms. Tas palīdz identificēt pareizo datu kopu, kas ir ļoti svarīga pirms datu izpētes uzsākšanas.

Visiem norādītajiem komponentiem ir jāsadarbojas, lai spēlētu nozīmīgu lomu Datu ezera veidošanā, lai viegli attīstītos un izpētītu vidi.

Datu ezera brieduma posmi

Datu ezera brieduma posmu definīcija dažādās mācību grāmatās atšķiras. Lai arī būtība paliek nemainīga. Pēc brieduma posma definīcija ir no nespeciālista viedokļa.

1. posms: apstrādājiet un uzņemiet datus mērogā

Šis datu brieduma pirmais posms ietver spēju pārveidot un analizēt datus. Uzņēmumu īpašniekiem šeit jāatrod rīki atbilstoši viņu prasmēm, lai iegūtu vairāk datu un izveidotu analītiskas lietojumprogrammas.

2. posms: Analītiskā muskuļa veidošana

Šis ir otrais posms, kas ietver spēju uzlabot datus pārveidot un analizēt. Šajā posmā uzņēmumi izmanto viņu prasmēm piemērotāko rīku. Viņi sāk iegūt vairāk datu un veidot lietojumprogrammas. Šeit uzņēmuma datu noliktavas un datu ezera iespējas tiek izmantotas kopā.

3. posms: EDW un Data Lake darbojas vienoti

Šis solis ir saistīts ar datu un analīzes iegūšanu pēc iespējas vairāk cilvēku rokās. Šajā posmā datu ezers un uzņēmuma datu noliktava sāk darboties savienībā. Abi spēlē savu lomu analītikā

4. posms: Uzņēmējdarbības iespējas ezerā

Šajā datu ezera brieduma posmā datu ezeram tiek pievienotas uzņēmuma iespējas. Informācijas pārvaldības, informācijas dzīves cikla pārvaldības iespēju un metadatu pārvaldības pieņemšana. Tomēr ļoti maz organizāciju var sasniegt šo brieduma pakāpi, taču nākotnē šis skaitlis palielināsies.

Labākā prakse datu ezera ieviešanai:

  • Arhitektūras komponentiem, to mijiedarbībai un identificētajiem produktiem jāatbalsta vietējie datu tipi
  • Datu ezera dizains jābalsta uz pieejamo, nevis uz nepieciešamo. Shēma un datu prasības nav definētas, kamēr tās nav vaicātas
  • Dizains jāvadās pēc vienreizlietojamiem komponentiem, kas integrēti pakalpojuma API.
  • Datu atklāšana, uzņemšana, glabāšana, administrēšana, kvalitāte, pārveidošana un vizualizācija jāpārvalda neatkarīgi.
  • Datu ezera arhitektūra būtu jāpielāgo konkrētai nozarei. Tam jānodrošina, ka šim domēnam nepieciešamās iespējas ir dizaina neatņemama sastāvdaļa
  • Svarīgi ir ātri atrast jaunatklātu datu avotus
  • Data Lake palīdz pielāgotai pārvaldībai iegūt maksimālo vērtību
  • Datu ezeram jāatbalsta esošās uzņēmuma datu pārvaldības metodes un metodes

Datu ezera izveides izaicinājumi:

  • Datu ezerā datu apjoms ir lielāks, tāpēc procesam jābūt vairāk balstītam uz programmatisko administrēšanu
  • Ir grūti tikt galā ar retiem, nepilnīgiem, nepastāvīgiem datiem
  • Plašākai datu kopas un avota jomai nepieciešama lielāka datu pārvaldība un atbalsts

Atšķirība starp datu ezeriem un datu noliktavu

Parametri Datu ezeri Datu noliktava
Dati Datu ezeri glabā visu. Datu noliktava koncentrējas tikai uz biznesa procesiem.
Apstrāde Dati galvenokārt nav apstrādāti Ļoti apstrādāti dati.
Datu tips Tas var būt nestrukturēts, daļēji strukturēts un strukturēts. Tas galvenokārt ir tabulas formā un struktūrā.
Uzdevums Dalīties ar datu pārvaldību Optimizēta datu izgūšanai
Veiklība Ļoti veikls, pēc vajadzības konfigurējiet un pārkonfigurējiet. Salīdzinot ar Data Lake, tas ir mazāk veikls un ar fiksētu konfigurāciju.
Lietotāji Data Lake galvenokārt izmanto Data Scientist Biznesa profesionāļi plaši izmanto datu noliktavu
Uzglabāšana Datu ezeru dizains zemu izmaksu uzglabāšanai. Tiek izmantota dārga krātuve, kas nodrošina ātru reakcijas laiku
Drošība Piedāvā mazāku kontroli. Ļauj labāk kontrolēt datus.
EDW nomaiņa Datu ezers var būt EDW avots Papildus EDW (nav aizstājējs)
Shēma Lasīšanas shēma (nav iepriekš definētu shēmu) Rakstīšanas shēma (iepriekš definētas shēmas)
Datu apstrāde Palīdz ātri ievadīt jaunus datus. Jauna satura ieviešana ir laikietilpīga.
Datu precizitāte Dati ar zemu detalizācijas vai detalizācijas pakāpi. Dati kopsavilkuma vai apkopotā detalizācijas līmenī.
Rīki Var izmantot atvērtā koda / rīkus, piemēram, Hadoop / Map Reduce Pārsvarā komerciālie instrumenti.

Data Lake izmantošanas priekšrocības un riski:

Šeit ir daži galvenie ieguvumi, izmantojot datu ezeru:

  • Pilnībā palīdz ar produktu jonizējošu un uzlabotu analīzi
  • Piedāvā rentablu mērogojamību un elastību
  • Piedāvā vērtību no neierobežotiem datu tipiem
  • Samazina ilgtermiņa īpašuma izmaksas
  • Ļauj ekonomiski uzglabāt failus
  • Ātri pielāgojams izmaiņām
  • Datu ezera galvenā priekšrocība ir dažādu satura avotu centralizācija
  • Lietotāji no dažādiem departamentiem var būt izkaisīti visā pasaulē, un viņiem var būt elastīga piekļuve datiem

Data Lake lietošanas risks:

  • Pēc kāda laika Data Lake var zaudēt aktualitāti un impulsu
  • Projektējot Data Lake, pastāv lielāks risks
  • Nestrukturēti dati var izraisīt nevaldītu haosu, neizmantojamus datus, atšķirīgus un sarežģītus rīkus, uzņēmuma mēroga sadarbību, vienotu, konsekventu un kopīgu
  • Tas arī palielina uzglabāšanas un aprēķināšanas izmaksas
  • Nav iespējams gūt ieskatu no citiem, kuri ir strādājuši ar datiem, jo ​​nav ziņojuma par iepriekšējo analītiķu secinājumiem.
  • Lielākais datu ezeru risks ir drošība un piekļuves kontrole. Dažreiz datus var ievietot ezerā bez jebkādas uzraudzības, jo dažiem datiem var būt vajadzīga privātums un normatīvie akti

Kopsavilkums:

  • Datu ezers ir krātuves krātuve, kurā var uzglabāt lielu daudzumu strukturētu, daļēji strukturētu un nestrukturētu datu.
  • Datu ezera veidošanas galvenais mērķis ir piedāvāt datu zinātniekiem neuzlabotu skatu uz datiem.
  • Vienotais operāciju līmenis, apstrādes līmenis, destilācijas līmenis un HDFS ir svarīgi Data Lake arhitektūras slāņi
  • Datu uzņemšana, datu glabāšana, datu kvalitāte, datu audits, datu izpēte, datu atklāšana ir dažas svarīgas Data Lake arhitektūras sastāvdaļas
  • Datu ezera dizains jābalsta uz pieejamo, nevis uz nepieciešamo.
  • Data Lake samazina ilgtermiņa īpašumtiesību izmaksas un ļauj ekonomiski uzglabāt failus
  • Lielākais datu ezeru risks ir drošība un piekļuves kontrole. Dažreiz datus var ievietot ezerā bez jebkādas uzraudzības, jo dažiem datiem var būt vajadzīga privātums un normatīvie akti.