ETL (izvilkšanas, pārveidošanas un ielādes) process datu noliktavā

Satura rādītājs:

Anonim

Kas ir ETL?

ETL ir process, kas iegūst datus no dažādām avotu sistēmām, pēc tam tos pārveido (piemēram, izmantojot aprēķinus, apvienojumus utt.) Un visbeidzot ielādē datus Datu noliktavas sistēmā. Pilna ETL forma ir ekstrakts, pārveidošana un ielāde.

Ir vilinoši domāt, ka datu noliktavas izveidošana ir vienkārši datu iegūšana no vairākiem avotiem un ielāde datu noliktavas datu bāzē. Tas ir tālu no patiesības un prasa sarežģītu ETL procesu. ETL process prasa aktīvu ieguldījumu no dažādām ieinteresētajām pusēm, tostarp izstrādātājiem, analītiķiem, testētājiem, augstākajiem vadītājiem, un tas ir tehniski sarežģīts.

Lai saglabātu savu vērtību kā lēmumu pieņēmēju instrumentu, datu noliktavas sistēmai jāmainās līdz ar biznesa izmaiņām. ETL ir datu noliktavas sistēmas atkārtota darbība (katru dienu, nedēļu, mēnesi), un tai jābūt veiklai, automatizētai un labi dokumentētai.

Šajā ETL apmācībā jūs uzzināsiet

  • Kas ir ETL?
  • Kāpēc jums vajag ETL?
  • ETL process datu noliktavās
  • 1. solis) ekstrakcija
  • 2. solis) Pārveidošana
  • 3. solis) Iekraušana
  • ETL rīki
  • Labākās prakses ETL process

Kāpēc jums vajag ETL?

ETL ieviešanai organizācijā ir daudz iemeslu:

  • Tas palīdz uzņēmumiem analizēt savus biznesa datus, lai pieņemtu kritiskus biznesa lēmumus.
  • Darījumu datubāzes nevar atbildēt uz sarežģītiem biznesa jautājumiem, uz kuriem var atbildēt ar ETL piemēru.
  • Datu noliktava nodrošina kopēju datu krātuvi
  • ETL nodrošina metodi, kā datus no dažādiem avotiem pārvietot uz datu noliktavu.
  • Mainoties datu avotiem, datu noliktava tiks automātiski atjaunināta.
  • Pareizi izstrādāta un dokumentēta ETL sistēma ir gandrīz būtiska, lai panāktu Datu noliktavas projekta panākumus.
  • Ļauj pārbaudīt datu pārveidošanas, apkopošanas un aprēķinu kārtulas.
  • ETL process ļauj salīdzināt datu paraugus starp avotu un mērķa sistēmu.
  • ETL process var veikt sarežģītas transformācijas, un datu glabāšanai ir nepieciešama papildu zona.
  • ETL palīdz migrēt datus uz datu noliktavu. Pārveidojiet dažādos formātos un veidos, lai ievērotu vienu konsekventu sistēmu.
  • ETL ir iepriekš noteikts process, kā piekļūt avota datiem un ar tiem manipulēt mērķa datu bāzē.
  • ETL datu noliktavā piedāvā dziļu vēsturisku kontekstu biznesam.
  • Tas palīdz uzlabot produktivitāti, jo tas kodē un atkārtoti izmanto bez tehniskām prasmēm.

ETL process datu noliktavās

ETL ir trīspakāpju process

ETL process

1. solis) ekstrakcija

Šajā ETL arhitektūras posmā dati tiek iegūti no avota sistēmas pieturvietā. Transformācijas, ja tādas tiek veiktas pieturvietā, lai avotu sistēmas veiktspēja netiktu pasliktināta. Turklāt, ja bojāti dati tiek kopēti tieši no avota datu noliktavas datu bāzē, problēma būs izsaukšana. Pakāpiena apgabals dod iespēju apstiprināt iegūtos datus, pirms tie pārvietojas uz datu noliktavu.

Datu noliktavā ir jāintegrē dažādas sistēmas

DBVS, aparatūra, operētājsistēmas un sakaru protokoli. Avoti varētu ietvert mantotas lietojumprogrammas, piemēram, lieldatori, pielāgotas lietojumprogrammas, kontaktpunktu ierīces, piemēram, bankomātu, zvanu komutatorus, teksta failus, izklājlapas, ERP, datus no pārdevējiem, partnerus, cita starpā.

Tāpēc pirms datu iegūšanas un fiziskas ielādes ir nepieciešama loģiska datu karte. Šajā datu kartē ir aprakstīta saikne starp avotiem un mērķa datiem.

Trīs datu ieguves metodes:

  1. Pilnīga ekstrakcija
  2. Daļēja ekstrakcija - bez atjaunināšanas paziņojuma.
  3. Daļēja ekstrakcija - ar atjaunināšanas paziņojumu

Neatkarīgi no izmantotās metodes ekstrakcijai nevajadzētu ietekmēt avota sistēmu darbību un reakcijas laiku. Šīs avotu sistēmas ir tiešraides ražošanas datu bāzes. Jebkura palēnināšanās vai bloķēšana var ietekmēt uzņēmuma rezultātu.

Dažas validācijas tiek veiktas ekstrakcijas laikā:

  • Samieriniet ierakstus ar avota datiem
  • Pārliecinieties, vai nav ielādēts surogātpasts / nevēlami dati
  • Datu tipa pārbaude
  • Noņemiet visu veidu datu dublikātus / fragmentus
  • Pārbaudiet, vai visi taustiņi ir vai nav

2. solis) Pārveidošana

No avota servera iegūtie dati ir neapstrādāti un nav izmantojami sākotnējā formā. Tāpēc tas ir jātīra, jāapzīmē un jāpārveido. Faktiski tas ir galvenais solis, kur ETL process rada vērtību un maina datus tā, lai varētu ģenerēt ieskatīgus BI pārskatus.

Tas ir viens no svarīgākajiem ETL jēdzieniem, kurā izvilktajiem datiem piemēro funkciju kopumu. Datus, kuriem nav nepieciešama nekāda pārveidošana, sauc par tiešu pārvietošanos vai datu pārsūtīšanu .

Pārveidošanas solī varat veikt pielāgotas darbības ar datiem. Piemēram, ja lietotājs vēlas pārdošanas ieņēmumu summu, kas nav datu bāzē. Vai arī, ja vārds un uzvārds tabulā atrodas dažādās kolonnās. Pirms iekraušanas tos ir iespējams sasiet.

Datu integrācijas jautājumi

Datu integritātes problēmas ir šādas:

  1. Tā paša cilvēka, piemēram, Jona, Jāņa uc rakstība.
  2. Ir vairāki veidi, kā apzīmēt uzņēmuma nosaukumu, piemēram, Google, Google Inc.
  3. Dažādu vārdu, piemēram, Cleaveland, Cleveland, izmantošana.
  4. Var būt gadījums, kad vienam lietotājam dažādas lietojumprogrammas rada dažādus kontu numurus.
  5. Dažos datos nepieciešamie faili paliek tukši
  6. Nederīgs produkts, kas savākts POS kā manuāla ievadīšana, var izraisīt kļūdas.

Apstiprināšana tiek veikta šajā posmā

  • Filtrēšana - lai ielādētu, atlasiet tikai noteiktas kolonnas
  • Kārtulu un uzmeklēšanas tabulu izmantošana datu standartizācijai
  • Rakstzīmju kopas pārveidošana un kodēšanas apstrāde
  • Mērvienību, piemēram, datuma un laika konvertēšana, valūtas konvertēšana, skaitliskā konvertēšana utt.
  • Datu sliekšņa validācijas pārbaude. Piemēram, vecums nedrīkst būt lielāks par diviem cipariem.
  • Datu plūsmas validācija no pieturvietas uz starptabulām.
  • Obligātos laukus nedrīkst atstāt tukšus.
  • Tīrīšana (piemēram, NULL kartēšana uz 0 vai Dzimuma vīriešu kartēšana ar "M" un Sievietes atiestatīšana uz "F" utt.)
  • Sadaliet kolonnu vairākos un apvienojot vairākas kolonnas vienā kolonnā.
  • Rindu un kolonnu transponēšana,
  • Izmantojiet uzmeklējumus, lai sapludinātu datus
  • Izmantojot jebkuru sarežģītu datu pārbaudi (piemēram, ja pirmās divas kolonnas rindā ir tukšas, tas automātiski noraida rindu no apstrādes)

3. solis) Iekraušana

Datu ielāde mērķa datu noliktavas datu bāzē ir pēdējais ETL procesa posms. Tipiskā datu noliktavā milzīgs datu apjoms jāielādē salīdzinoši īsā laika posmā (naktīs). Tādējādi slodzes process ir jāoptimizē tā veiktspējai.

Slodzes atteices gadījumā atkopšanas mehānismi jākonfigurē tā, lai tie tiktu restartēti no kļūmes vietas, nezaudējot datu integritāti. Datu noliktavas administratoriem jāuzrauga, jāatsāk, jāatceļ ielādes atbilstoši dominējošajai servera veiktspējai.

Iekraušanas veidi:

  • Sākotnējā ielāde - aizpildiet visas datu noliktavas tabulas
  • Pieaugošā slodze - periodisku izmaiņu piemērošana pēc nepieciešamības.
  • Pilna atsvaidzināšana - vienas vai vairāku tabulu satura atjaunošana un atkārtota ielāde ar jauniem datiem.

Slodzes pārbaude

  • Pārliecinieties, ka atslēgas lauka dati nav vai nav tukši.
  • Pārbaudiet modelēšanas skatus, pamatojoties uz mērķa tabulām.
  • Pārbaudiet, vai ir apvienotas vērtības un aprēķinātie mērījumi.
  • Datu pārbaudes dimensiju tabulā, kā arī vēstures tabulā.
  • Pārbaudiet BI pārskatus par ielādēto faktu un izmēru tabulu.

ETL rīki

Tirgū ir pieejami daudzi datu glabāšanas rīki. Šeit ir daži visizcilākie:

1. MarkLogic:

MarkLogic ir datu noliktavas risinājums, kas atvieglo un paātrina datu integrāciju, izmantojot virkni uzņēmuma funkciju. Tas var vaicāt dažāda veida datus, piemēram, dokumentus, attiecības un metadatus.

https://www.marklogic.com/product/getting-started/


2. Oracle:

Oracle ir nozares vadošā datu bāze. Tas piedāvā plašu datu noliktavas risinājumu izvēli gan uz vietas, gan mākoņos. Tas palīdz optimizēt klientu pieredzi, palielinot darbības efektivitāti.

https://www.oracle.com/index.html


3. Amazon RedShift:

Amazon Redshift ir rīks Datawarehouse. Tas ir vienkāršs un rentabls rīks, lai analizētu visu veidu datus, izmantojot standarta SQL un esošos BI rīkus. Tas arī ļauj veikt sarežģītus vaicājumus pret petabaitu strukturētiem datiem.

https://aws.amazon.com/redshift/?nc2=h_m1

Šeit ir pilns noderīgu datu noliktavas rīku saraksts.

Labākās prakses ETL process

Tālāk ir sniegta paraugprakse ETL procesa darbību veikšanai:

Nekad nemēģiniet iztīrīt visus datus:

Katra organizācija vēlas, lai visi dati būtu tīri, taču lielākā daļa no tām nav gatavas maksāt gaidīšanai vai nav gatavas gaidīt. Lai to visu iztīrītu, vienkārši būtu vajadzīgs pārāk ilgs laiks, tāpēc labāk nemēģināt notīrīt visus datus.

Nekad neko netīriet:

Vienmēr plānojiet kaut ko iztīrīt, jo datu noliktavas būvniecības lielākais iemesls ir tīrāku un uzticamāku datu piedāvāšana.

Nosakiet datu tīrīšanas izmaksas:

Pirms visu netīro datu tīrīšanas jums ir svarīgi noteikt katra netīrā datu elementa tīrīšanas izmaksas.

Lai paātrinātu vaicājumu apstrādi, izmantojiet papildu skatus un indeksus:

Lai samazinātu uzglabāšanas izmaksas, apkopojiet apkopotos datus diska lentēs. Nepieciešama arī kompromiss starp uzglabājamo datu apjomu un detalizētu to izmantošanu. Kompromiss datu precizitātes līmenī, lai samazinātu uzglabāšanas izmaksas.

Kopsavilkums:

  • ETL nozīmē izvilkt, pārveidot un ielādēt.
  • ETL nodrošina metodi, kā datus no dažādiem avotiem pārvietot uz datu noliktavu.
  • Pirmajā iegūšanas posmā dati tiek iegūti no avota sistēmas pieturvietā.
  • Pārveidošanas posmā dati, kas iegūti no avota, tiek attīrīti un pārveidoti.
  • Datu ielāde mērķa datu noliktavā ir pēdējais ETL procesa posms.