Stropu starpsienas & Kausi ar piemēru

Satura rādītājs:

Anonim

Galdi, starpsienas un kausi ir stropu datu modelēšanas daļas.

Kas ir starpsienas?

Stropu starpsienas ir veids, kā sakārtot tabulas nodalījumos, sadalot tabulas dažādās daļās, pamatojoties uz nodalījuma atslēgām.

Nodalījums ir noderīgs, ja tabulā ir viena vai vairākas nodalījuma atslēgas. Sadalījuma atslēgas ir pamatelementi, lai noteiktu, kā dati tiek glabāti tabulā.

Piemēram : -

"Klientam ir daži e-komercijas dati, kas pieder Indijas operācijām, kurās katra štata (38 štatu) darbība tiek minēta kopumā. Ja mēs ņemam štata kolonnu kā nodalījuma atslēgu un veicam starpsienas šiem Indijas datiem kopumā, mēs varam lai iegūtu nodalījumu skaitu (38 nodalījumus), kas ir vienāds ar Indijā esošo štatu skaitu (38). Tāds, lai visus štata datus varētu atsevišķi skatīt sadaļu tabulās.

Starpsienu koda fragmenta paraugs

  1. Visu valstu tabulas izveide
create table all states(state string, District string,Enrolments string)row format delimitedfields terminated by ',';
  1. Notiek datu ielāde izveidotajā tabulā visos štatos
Load data local inpath '/home/hduser/Desktop/AllStates.csv' into table allstates;
  1. Nodalījumu tabulas izveide
create table state_part(District string,Enrolments string) PARTITIONED BY(state string);
  1. Sadalīšanai mums ir jāiestata šis rekvizīts

    set hive.exec.dynamic.partition.mode=nonstrict
  2. Notiek datu ielāde nodalījumu tabulā
INSERT OVERWRITE TABLE state_part PARTITION(state)SELECT district,enrolments,state from allstates;
  1. Faktiska nodalījumu tabulu apstrāde un veidošana, pamatojoties uz stāvokli kā nodalījuma atslēgu
  2. HDFS krātuvē būs 38 nodalījumu izejas ar faila nosaukumu kā stāvokļa nosaukumu. Mēs to pārbaudīsim šajā solī

Šajos ekrānuzņēmumos tiks parādīta iepriekš minētā koda izpilde

No iepriekš minētā koda mēs rīkojamies šādi

  1. Visu valstu tabulas izveide ar 3 kolonnu nosaukumiem, piemēram, štats, rajons un reģistrācija
  2. Notiek datu ielāde visu valstu tabulā
  3. Nodalījuma tabulas izveide ar stāvokli kā nodalījuma atslēgu
  4. Šajā solī nodalījuma režīma iestatīšana kā ne strikta (šis režīms aktivizēs dinamiskā nodalījuma režīmu)
  5. Notiek datu ielāde nodalījumā tablestate_part
  6. Faktiska nodalījumu tabulu apstrāde un veidošana, pamatojoties uz stāvokli kā nodalījuma atslēgu
  7. HDFS krātuvē notiek 38 nodalījumu izejas ar faila nosaukumu kā stāvokļa nosaukumu. Mēs to pārbaudīsim šajā solī. Šajā solī mēs redzam HDFS 38 nodalījuma izejas

Kas ir kausi?

Stropu spaiņi tiek izmantoti stropu tabulas datu sadalīšanai vairākos failos vai direktorijos. to izmanto efektīvai vaicāšanai.

  • Datus, ti, kas atrodas šajos nodalījumos, var sīkāk sadalīt grupās
  • Sadalījums tiek veikts, pamatojoties uz tabulā atlasīto konkrēto kolonnu Hašu.
  • Grupas aizmugurē izmanto kāda veida hashinga algoritmu, lai nolasītu katru ierakstu un ievietotu to spaiņos
  • Stropā mums ir jāiespējo segmenti, izmantojot set.hive.enforce.bucketing = true;

1. solis) Kausa izveide, kā parādīts zemāk.

No iepriekš minētā ekrānuzņēmuma

  • Mēs veidojam kopu_paraugu ar kolonnu nosaukumiem, piemēram, vārds_vārds, darba_ID, nodaļa, alga un valsts
  • Mēs izveidojam 4 spaiņus.
  • Kad dati tiek automātiski ielādēti, ievietojiet tos 4 grupās

2. solis. Datu ielāde tabulas parauga segmentā

Pieņemot, ka "Darbinieku tabula" jau ir izveidota Hive sistēmā. Šajā solī mēs redzēsim datu no darbiniekiem tabulas ielādi tabulas parauga segmentā.

Pirms sākam darbinieku datu pārvietošanu grupās, pārliecinieties, ka tie sastāv no kolonnu nosaukumiem, piemēram, vārds_vārds, darba_ID, nodaļa, alga un valsts.

Šeit mēs ielādējam datus paraugu kopā no darbinieku tabulas.

3. darbība. Parādot 4 1. grupā izveidotos segmentus

No iepriekš minētā ekrānuzņēmuma mēs varam redzēt, ka dati no darbinieku tabulas tiek pārsūtīti 4 spaiļos, kas izveidoti 1. darbībā.