Datu noliktavas koncepcijas
Datu noliktavas pamatkoncepcija ir atvieglot vienotu patiesības versiju uzņēmumam lēmumu pieņemšanai un prognozēšanai. Datu noliktava ir informācijas sistēma, kas satur vēsturiskus un komutatīvus datus no viena vai vairākiem avotiem. Datu noliktavas koncepcijas vienkāršo organizāciju ziņošanas un analīzes procesu.
Datu noliktavas raksturojums
Datu noliktavas koncepcijām ir šādas īpašības:
- Uz tēmu orientēts
- Integrēta
- Laika variants
- Nepastāvīgs
Uz tēmu orientēts
Datu noliktava ir orientēta uz tēmu, jo tā piedāvā informāciju par tēmu, nevis uzņēmumu pašreizējo darbību. Šīs tēmas var būt pārdošana, mārketings, izplatīšana utt.
Datu noliktava nekad nav vērsta uz notiekošajām darbībām. Tā vietā uzsvars tika likts uz datu modelēšanu un analīzi lēmumu pieņemšanai . Tas arī nodrošina vienkāršu un kodolīgu skatu uz konkrēto tēmu, izslēdzot datus, kas nav noderīgi lēmumu pieņemšanas procesa atbalstam.
Integrēta
Datu noliktavā integrācija nozīmē kopīgas mērvienības izveidi visiem līdzīgajiem datiem no atšķirīgās datu bāzes. Dati arī jāuzglabā Datu noliktavā kopīgā un vispārpieņemamā veidā.
Datu noliktava tiek izstrādāta, integrējot datus no dažādiem avotiem, piemēram, lieldatora, relāciju datu bāzēm, plakaniem failiem utt. Turklāt tai ir jāsaglabā konsekventas nosaukšanas konvencijas, formāts un kodēšana.
Šī integrācija palīdz efektīvi analizēt datus. Jānodrošina konsekvence nosaukumu piešķiršanas konvencijās, atribūtu mēros, kodēšanas struktūrā utt. Apsveriet šādu piemēru:
Iepriekš minētajā piemērā ir trīs dažādas lietojumprogrammas ar marķējumu A, B un C. Šajās lietojumprogrammās saglabātā informācija ir Dzimums, Datums un Bilance. Tomēr katras lietojumprogrammas dati tiek glabāti atšķirīgi.
- Lietojumprogrammā Dzimumu lauks saglabā tādas loģiskas vērtības kā M vai F
- Lietojumprogrammas B dzimuma lauks ir skaitliska vērtība,
- C lietojumprogrammā dzimuma lauks tiek saglabāts rakstzīmes vērtības formā.
- Tas pats attiecas uz datumu un atlikumu
Tomēr pēc pārveidošanas un tīrīšanas visi šie dati tiek glabāti kopīgā formātā Datu noliktavā.
Laika variants
Datu noliktavas laika periods ir diezgan plašs, salīdzinot ar operētājsistēmām. Datu noliktavā savāktie dati tiek atpazīti ar noteiktu periodu un piedāvā informāciju no vēsturiskā viedokļa. Tas tieši vai netieši satur laika elementu.
Viena no šādām vietām, kur datu noliktavas datu displeja laika dispersija atrodas ieraksta atslēgas struktūrā. Katrai primārajai atslēgai, kas atrodas DW, jābūt netieši vai nepārprotami noteiktam laika elementam. Piemēram, diena, nedēļas mēnesis utt.
Vēl viens laika dispersijas aspekts ir tāds, ka pēc datu ievietošanas noliktavā tos nevar atjaunināt vai mainīt.
Nepastāvīgs
Datu noliktava ir arī nepastāvīga - iepriekšējie dati netiek izdzēsti, kad tajā tiek ievadīti jauni dati.
Dati ir tikai lasāmi un periodiski atsvaidzināti. Tas arī palīdz analizēt vēsturiskos datus un saprast, kas un kad notika. Tas neprasa darījumu procesu, atkopšanas un vienlaicīguma kontroles mehānismus.
Datu noliktavas vidē tiek izlaistas tādas darbības kā dzēšana, atjaunināšana un ievietošana, kas tiek veiktas lietojumprogrammas vidē. Datu glabāšanā tiek veiktas tikai divu veidu operācijas
- Datu ielāde
- Piekļuve datiem
Šeit ir dažas būtiskas atšķirības starp lietojumprogrammu un datu noliktavu
Darbības pieteikums | Datu noliktava |
Sarežģītajai programmai jābūt kodētai, lai pārliecinātos, ka datu jaunināšanas procesi uztur augstu gala produkta integritāti. | Šāda veida problēmas nenotiek, jo netiek veikta datu atjaunināšana. |
Dati tiek ievietoti normalizētā formā, lai nodrošinātu minimālu atlaišanu. | Dati netiek glabāti normalizētā formā. |
Tehnoloģija, kas nepieciešama darījumu, datu atkopšanas, atcelšanas un izšķiršanas problēmu atbalstam, jo tās strupceļš ir diezgan sarežģīts. | Tas piedāvā salīdzinoši vienkāršu tehnoloģiju. |
Datu noliktavas arhitektūra
Datu noliktavas arhitektūra ir sarežģīta, jo tā ir informācijas sistēma, kas satur vēsturiskus un komutatīvus datus no vairākiem avotiem. Datu noliktavas slāņu veidošanai ir 3 pieejas: viena līmeņa, divu līmeņu un trīs līmeņu. Šī datu līmeņa 3 līmeņu arhitektūra ir izskaidrota šādi.
Vienlīmeņu arhitektūra
Viena slāņa mērķis ir samazināt uzglabāto datu daudzumu. Šis mērķis ir novērst datu atlaišanu. Šī arhitektūra praksē netiek bieži izmantota.
Divu līmeņu arhitektūra
Divu slāņu arhitektūra ir viens no Datu noliktavas slāņiem, kas atdala fiziski pieejamos avotus un datu noliktavu. Šī arhitektūra nav paplašināma un arī neatbalsta lielu skaitu lietotāju. Tam ir arī savienojamības problēmas tīkla ierobežojumu dēļ.
Trīs līmeņu datu noliktavas arhitektūra
Šī ir visplašāk izmantotā datu noliktavas arhitektūra.
Tas sastāv no augšējā, vidējā un apakšējā līmeņa.
- Apakšējais līmenis: Datawarehouse serveru kā apakšējā līmeņa datu bāze. Parasti tā ir relāciju datu bāzes sistēma. Dati tiek attīrīti, pārveidoti un ielādēti šajā slānī, izmantojot aizmugures rīkus.
- Vidējais līmenis: datu noliktavas vidējais līmenis ir OLAP serveris, kas tiek realizēts, izmantojot vai nu ROLAP, vai MOLAP modeli. Lietotājam šis lietojumprogrammas līmenis parāda abstraktu datu bāzes skatu. Šis slānis darbojas arī kā starpnieks starp galalietotāju un datu bāzi.
- Augšējais līmenis: Augšējais līmenis ir priekšējā klienta slānis. Augstākais līmenis ir rīki un API, kurus jūs savienojat un iegūstat datus no datu noliktavas. Tie varētu būt vaicājumu rīki, ziņošanas rīki, pārvaldītie vaicājumu rīki, analīzes rīki un datu ieguves rīki.
Datu noliktavas komponenti
Mēs uzzināsim par datu noliktavas komponentiem un datu noliktavas ar diagrammu arhitektūru, kā parādīts zemāk:

Datu noliktavas pamatā ir RDBMS serveris, kas ir centrālais informācijas krātuve, kuru ieskauj daži galvenie datu glabāšanas komponenti, lai visa vide būtu funkcionāla, pārvaldāma un pieejama.
Galvenokārt ir pieci datu noliktavas komponenti:
Datu noliktavas datu bāze
Centrālā datu bāze ir datu noliktavas vides pamats. Šī datu bāze ir ieviesta uz RDBMS tehnoloģiju. Lai gan šāda veida ieviešanu ierobežo fakts, ka tradicionālā RDBMS sistēma ir optimizēta darījumu datu bāzes apstrādei, nevis datu glabāšanai. Piemēram, ad-hoc vaicājumi, vairāku tabulu pievienošanās, apkopojumi prasa daudz resursu un palēnina veiktspēju.
Tādējādi tiek izmantotas alternatīvas pieejas datu bāzei, kā norādīts turpmāk -
- Datu noliktavā relāciju datu bāzes tiek izvietotas paralēli, lai nodrošinātu mērogojamību. Paralēlās relāciju datubāzes ļauj arī koplietot atmiņu vai koplietot neko ar modeli dažādās daudzprocesoru konfigurācijās vai masveidā paralēlos procesoros.
- Lai apietu relāciju tabulu skenēšanu un uzlabotu ātrumu, tiek izmantotas jaunas indeksu struktūras.
- Daudzdimensiju datu bāzes (MDDB) izmantošana, lai pārvarētu visus ierobežojumus, kas tiek radīti relatīvo datu noliktavas modeļu dēļ. Piemērs: Essbase no Oracle.
Iegādes, iegādes, attīrīšanas un pārveidošanas rīki (ETL)
Datu iegūšanas, pārveidošanas un migrēšanas rīkus izmanto, lai veiktu visus pārveidojumus, kopsavilkumus un visas izmaiņas, kas nepieciešamas, lai datus pārveidotu vienotā formātā datu noliktavā. Tos sauc arī par izvilkšanas, pārveidošanas un ielādes (ETL) rīkiem.
To funkcionalitāte ietver:
- Anonimizējiet datus atbilstoši normatīvajiem noteikumiem.
- Nevēlamu datu izslēgšana operatīvajās datu bāzēs no ielādes datu noliktavā.
- Meklēt un aizstāt parastos nosaukumus un definīcijas datiem, kas iegūti no dažādiem avotiem.
- Kopsavilkumu un atvasināto datu aprēķināšana
- Ja trūkst datu, aizpildiet tos ar noklusējumiem.
- No dublētiem atkārtotiem datiem, kas iegūti no vairākiem datu avotiem.
Šie izvilkšanas, pārveidošanas un ielādes rīki var ģenerēt cron darbus, fona darbus, Cobol programmas, čaulas skriptus utt., Kas regulāri atjaunina datus datu noliktavā. Šie rīki ir noderīgi arī metadatu uzturēšanai.
Šiem ETL rīkiem ir jārisina datu bāzes un datu neviendabīguma problēmas.
Metadati
Nosaukums Meta Data norāda uz dažām augsta līmeņa tehnoloģiskām datu glabāšanas koncepcijām. Tomēr tas ir pavisam vienkārši. Metadati ir dati par datiem, kas nosaka datu noliktavu. To izmanto, lai izveidotu, uzturētu un pārvaldītu datu noliktavu.
Datu noliktavas arhitektūrā metadatiem ir svarīga loma, jo tie nosaka datu noliktavas datu avotu, lietojumu, vērtības un funkcijas. Tas arī nosaka, kā datus var mainīt un apstrādāt. Tas ir cieši saistīts ar datu noliktavu.
Piemēram, pārdošanas datu bāzes rindiņā var būt:
4030 KJ732 299.90
Tie ir bezjēdzīgi dati, līdz mēs konsultējamies ar Meta, kas mums paziņo, ka tas bija
- Modeļa numurs: 4030
- Tirdzniecības aģenta ID: KJ732
- Kopējā pārdošanas summa ir 299,90 USD
Tāpēc metadati ir būtiskas sastāvdaļas datu pārveidošanā zināšanās.
Metadati palīdz atbildēt uz šādiem jautājumiem
- Kādas tabulas, atribūtus un atslēgas satur datu noliktava?
- No kurienes dati?
- Cik reizes dati tiek atkārtoti ielādēti?
- Kādas pārvērtības tika pielietotas ar attīrīšanu?
Metadatus var klasificēt šādās kategorijās:
- Tehniskie metadati: šāda veida metadati satur informāciju par noliktavu, kuru izmanto datu noliktavas dizaineri un administratori.
- Biznesa metadati : šāda veida metadatos ir detalizēta informācija, kas lietotājiem ļauj viegli saprast datu noliktavā saglabāto informāciju.
Vaicājumu rīki
Viens no primārajiem datu noliktavas objektiem ir sniegt informāciju uzņēmumiem stratēģisku lēmumu pieņemšanai. Vaicājumu rīki ļauj lietotājiem mijiedarboties ar datu noliktavas sistēmu.
Šie rīki iedalās četrās dažādās kategorijās:
- Vaicājumu un ziņošanas rīki
- Lietojumprogrammu izstrādes rīki
- Datu ieguves rīki
- OLAP rīki
1. Vaicājumu un ziņošanas rīki:
Vaicājumu un ziņošanas rīkus var sīkāk iedalīt
- Ziņošanas rīki
- Pārvaldīti vaicājumu rīki
Pārskatu rīki:
Pārskatu veidošanas rīkus var sīkāk sadalīt ražošanas pārskatu rīkos un darbvirsmas ziņojumu rakstītājā.
- Pārskatu sastādītāji: šāda veida ziņošanas rīks ir paredzēts lietotājiem, lai veiktu viņu analīzi.
- Produkcijas pārskati: šāda veida rīki ļauj organizācijām regulāri sagatavot darbības pārskatus. Tas atbalsta arī liela apjoma pakešdarbus, piemēram, drukāšanu un aprēķinus. Daži populāri pārskatu rīki ir Brio, biznesa objekti, Oracle, PowerSoft, SAS institūts.
Pārvaldītie vaicājumu rīki:
Šāda veida piekļuves rīki palīdz galalietotājiem novērst datubāzes un SQL un datu bāzes struktūras aizķeršanos, ievietojot metaslāni starp lietotājiem un datu bāzi.
2. Lietojumprogrammu izstrādes rīki:
Dažreiz iebūvētie grafiskie un analītiskie rīki neapmierina organizācijas analītiskās vajadzības. Šādos gadījumos pielāgotie pārskati tiek izstrādāti, izmantojot lietojumprogrammu izstrādes rīkus.
3. Datu ieguves rīki:
Datu iegūšana ir nozīmīgas jaunas korelācijas, patentu un tendenču atklāšanas process, iegūstot lielu datu apjomu. Lai padarītu šo procesu automātisku, tiek izmantoti datu ieguves rīki.
4. OLAP rīki:
Šie rīki ir balstīti uz daudzdimensionālas datu bāzes koncepcijām. Tas ļauj lietotājiem analizēt datus, izmantojot sarežģītus un sarežģītus daudzdimensiju skatus.
Datu noliktavas autobusu arhitektūra
Datu noliktavas autobuss nosaka datu plūsmu jūsu noliktavā. Datu plūsmu datu noliktavā var iedalīt kategorijās Inflow, Upflow, Downflow, Outflow un Meta flow.
Veidojot datu kopni, jāņem vērā kopīgās dimensijas, fakti visos datu veidos.
Dati Marts
Datu pārraide ir piekļuves slānis, ko izmanto, lai iegūtu datus lietotājiem. Tas tiek piedāvāts kā opcija liela izmēra datu noliktavai, jo tā uzbūve prasa mazāk laika un naudas. Tomēr nav standarta datu definīcijas, kas katram cilvēkam atšķiras.
Vienkāršā vārdā Data Mart ir datu noliktavas meitasuzņēmums. Data Mart tiek izmantots datu sadalīšanai, kas izveidoti konkrētai lietotāju grupai.
Datu marķējumus varētu izveidot tajā pašā datubāzē, kur atrodas Datawarehouse, vai fiziski atsevišķu datu bāzi.
Datu noliktavas arhitektūras paraugprakse
Lai izstrādātu datu noliktavas arhitektūru, jums jāievēro tālāk norādītā paraugprakse:
- Izmantojiet datu noliktavas modeļus, kas ir optimizēti informācijas iegūšanai, kas var būt dimensiju režīms, denormalizēta vai hibrīda pieeja.
- Datu noliktavā izvēlieties atbilstošu projektēšanas pieeju kā augšupvērsto un augšupējo pieeju
- Nepieciešams pārliecināties, ka dati tiek apstrādāti ātri un precīzi. Tajā pašā laikā jums vajadzētu izmantot pieeju, kas datus apvieno vienā patiesības versijā.
- Rūpīgi noformējiet datu noliktavas datu iegūšanas un tīrīšanas procesu.
- Izstrādājiet MetaData arhitektūru, kas ļauj koplietot metadatus starp Data Warehouse komponentiem
- Apsveriet ODS modeļa ieviešanu, ja informācijas iegūšanas nepieciešamība ir gandrīz datu ieguves piramīdas apakšdaļā vai ja ir jāpiekļūst vairākiem darbības avotiem.
- Ir jāpārliecinās, ka datu modelis ir integrēts, nevis tikai konsolidēts. Tādā gadījumā jums vajadzētu apsvērt 3NF datu modeli. Tas ir ideāli piemērots arī ETL un datu tīrīšanas rīku iegādei
Kopsavilkums:
- Datu noliktava ir informācijas sistēma, kas satur vēsturiskus un komutatīvus datus no viena vai vairākiem avotiem. Šie avoti var būt tradicionālā datu noliktava, mākoņdatu noliktava vai virtuālā datu noliktava.
- Datu noliktava ir orientēta uz tēmu, jo tā piedāvā informāciju par tēmu, nevis organizācijas pašreizējās darbības.
- Datu noliktavā integrācija nozīmē kopīgas mērvienības izveidi visiem līdzīgajiem datiem no dažādām datu bāzēm
- Datu noliktava ir arī nepastāvīga - iepriekšējie dati netiek izdzēsti, kad tajā tiek ievadīti jauni dati.
- Datu noliktava ir laika variants, jo DW datiem ir ilgs glabāšanas laiks.
- Datu noliktavas arhitektūrā galvenokārt ir 5 komponenti: 1) datu bāze 2) ETL rīki 3) metadati 4) vaicājumu rīki 5) DataMarts
- Šīs ir četras galvenās vaicājumu rīku kategorijas: vaicājumi un pārskati, rīki 2. lietojumprogrammu izstrādes rīki, 3. datu ieguves rīki 4. OLAP rīki
- Datu iegūšanas, pārveidošanas un migrēšanas rīki tiek izmantoti visu reklāmguvumu un apkopojumu veikšanai.
- Datu noliktavas arhitektūrā metadatiem ir svarīga loma, jo tie nosaka datu noliktavas datu avotu, lietojumu, vērtības un funkcijas.