Lielo datu testēšanas apmācība: kas ir, stratēģija, kā pārbaudīt Hadoop

Satura rādītājs:

Anonim

Lielo datu pārbaude

Lielo datu testēšana ir lielo datu lietojumprogrammas testēšanas process, lai nodrošinātu, ka visas lielo datu lietojumprogrammas funkcijas darbojas kā paredzēts. Lielo datu testēšanas mērķis ir pārliecināties, ka lielo datu sistēma darbojas vienmērīgi un bez kļūdām, vienlaikus saglabājot veiktspēju un drošību.

Lielie dati ir lielu datu kopu kolekcija, kuras nevar apstrādāt, izmantojot tradicionālās skaitļošanas metodes. Šo datu kopu pārbaude ietver dažādus apstrādes rīkus, paņēmienus un ietvarus. Lielie dati attiecas uz datu izveidi, glabāšanu, izguvi un analīzi, kas ir ievērojama apjoma, daudzveidības un ātruma ziņā. Šeit varat uzzināt vairāk par Big Data, Hadoop un MapReduce

Šajā lielo datu testēšanas apmācībā jūs uzzināsiet

  • Kas ir lielo datu testēšanas stratēģija?
  • Kā pārbaudīt Hadoop lietojumprogrammas
  • Arhitektūras testēšana
  • Veiktspējas pārbaude
  • Veiktspējas pārbaudes pieeja
  • Veiktspējas testēšanas parametri
  • Testa vides vajadzības
  • Lielo datu pārbaude, salīdzinot ar Tradicionālā datu bāzes pārbaude
  • Lielo datu scenārijos izmantotie rīki
  • Lielo datu testēšanas izaicinājumi

Kas ir lielo datu testēšanas stratēģija?

Lielo datu lietojumprogrammas pārbaude ir vairāk tās datu apstrādes pārbaude, nevis programmatūras produkta atsevišķu īpašību pārbaude. Runājot par lielo datu testēšanu, galvenie ir veiktspējas un funkcionālā pārbaude .

Lielo datu testēšanas stratēģijā kvalitātes nodrošināšanas inženieri pārbauda datu terabaitu veiksmīgu apstrādi, izmantojot preču kopu un citus atbalsta komponentus. Tas prasa augstu prasmju testēšanas līmeni, jo apstrāde notiek ļoti ātri. Apstrāde var būt trīs veidu

Līdz ar to datu kvalitāte ir arī svarīgs faktors Hadoop testēšanā. Pirms lietojumprogrammas testēšanas ir jāpārbauda datu kvalitāte, un tas jāuzskata par daļu no datu bāzes testēšanas. Tas ietver dažādu īpašību pārbaudi, piemēram, atbilstību, precizitāti, dublēšanos, konsekvenci, derīgumu, datu pilnīgumu utt. Tālāk šajā Hadoop testēšanas apmācībā mēs uzzināsim, kā pārbaudīt Hadoop lietojumprogrammas.

Kā pārbaudīt Hadoop lietojumprogrammas

Šis attēls sniedz augsta līmeņa pārskatu par lielo datu lietojumprogrammu testēšanas fāzēm

Lielo datu testēšanu vai Hadoop testēšanu kopumā var iedalīt trīs posmos

1. darbība. Datu pakāpeniskas validācija

Pirmais solis šajā lielo datu testēšanas apmācībā tiek dēvēts par pirms Hadoop posmu, kas ietver procesa validāciju.

  • Dati no dažādiem avotiem, piemēram, RDBMS, tīmekļa žurnāliem, sociālajiem medijiem utt., Būtu jāapstiprina, lai pārliecinātos, ka sistēmā tiek ievilkti pareizi dati
  • Avota datu salīdzināšana ar Hadoop sistēmā ievietotajiem datiem, lai pārliecinātos, ka tie sakrīt
  • Pārbaudiet, vai pareizie dati ir iegūti un ielādēti pareizajā HDFS vietā

Datu pakāpeniskai pārbaudei var izmantot tādus rīkus kā Talend , Datameer

2. darbība: validācija "MapReduce"

Otrais solis ir "MapReduce" validācija. Šajā posmā lielo datu testeris pārbauda biznesa loģikas validāciju katrā mezglā un pēc tam pārbauda tos pēc palaišanas pret vairākiem mezgliem, nodrošinot, ka

  • Kartes samazināšanas process darbojas pareizi
  • Uz datiem tiek ieviesti datu apkopošanas vai nošķiršanas noteikumi
  • Tiek ģenerēti galveno vērtību pāri
  • Datu pārbaude pēc kartes samazināšanas procesa

3. solis: izejas validācijas fāze

Hadoop testēšanas pēdējais vai trešais posms ir izejas validācijas process. Izvades datu faili tiek ģenerēti un gatavi pārvietošanai uz EDW (Enterprise Data Warehouse) vai jebkuru citu sistēmu, kuras pamatā ir prasība.

Darbības trešajā posmā ietver

  • Lai pārbaudītu, vai transformācijas noteikumi ir pareizi piemēroti
  • Lai pārbaudītu datu integritāti un veiksmīgu datu ielādi mērķa sistēmā
  • Lai pārbaudītu, vai nav datu bojājumu, salīdzinot mērķa datus ar HDFS failu sistēmas datiem

Arhitektūras testēšana

Hadoops apstrādā ļoti lielu datu apjomu un prasa daudz resursu. Tādējādi arhitektūras pārbaudei ir izšķiroša nozīme, lai nodrošinātu jūsu Big Data projekta panākumus. Nepareizi vai nepareizi projektēta sistēma var izraisīt veiktspējas pasliktināšanos, un sistēma varētu neatbilst prasībai. Vismaz veiktspējas un kļūmes pārbaudes pakalpojumi jāveic Hadoop vidē.

Veiktspējas pārbaude ietver darba pabeigšanas laika, atmiņas izmantošanas, datu caurlaidspējas un līdzīgas sistēmas metrikas pārbaudi. Kaut arī kļūmjpārlēces testa pakalpojuma motīvs ir pārbaudīt, vai datu mezglu kļūmes gadījumā datu apstrāde notiek vienmērīgi

Veiktspējas pārbaude

Lielo datu veiktspējas pārbaude ietver divas galvenās darbības

  • Datu uzņemšana un darbība : šajā posmā lielo datu testeris pārbauda, ​​kā ātrā sistēma var patērēt datus no dažādiem datu avotiem. Testēšana ietver cita ziņojuma identificēšanu, kuru rinda var apstrādāt noteiktā laika posmā. Tas ietver arī to, cik ātri datus var ievietot pamatā esošajā datu krātuvē, piemēram, ievietošanas ātrumu Mongo un Cassandra datu bāzē.
  • Datu apstrāde : tas ietver pārbaudi, cik ātri tiek izpildīti vaicājumi vai karte, kas samazina darbu skaitu. Tas ietver arī datu apstrādes pārbaudi atsevišķi, ja datu kopās tiek aizpildīts pamatā esošais datu krājums. Piemēram, Map Reduce darbavietu palaišana pamatā esošajā HDFS
  • Apakškomponentu veiktspēja : Šīs sistēmas sastāv no vairākiem komponentiem, un ir svarīgi katru no šiem komponentiem pārbaudīt atsevišķi. Piemēram, cik ātri ziņojums tiek indeksēts un patērēts, MapReduce darbi, vaicājumu veiktspēja, meklēšana utt.

Veiktspējas pārbaudes pieeja

Lielo datu lietojuma veiktspējas pārbaude ietver milzīgu strukturētu un nestrukturētu datu apjomu testēšanu, un, lai pārbaudītu tik masīvus datus, nepieciešama īpaša testēšanas pieeja.

Veiktspējas pārbaude tiek veikta šādā secībā

  1. Process sākas ar lielo datu kopas iestatīšanu, kuras veiktspēja ir jāpārbauda
  2. Identificējiet un noformējiet atbilstošās slodzes
  3. Sagatavojiet atsevišķus klientus (tiek izveidoti pielāgoti skripti)
  4. Izpildiet testu un analizējiet rezultātu (ja mērķi nav sasniegti, noregulējiet komponentu un izpildiet no jauna)
  5. Optimāla konfigurācija

Veiktspējas testēšanas parametri

Dažādi parametri, kas jāpārbauda veiktspējas pārbaudei, ir

  • Datu glabāšana: kā dati tiek glabāti dažādos mezglos
  • Saistību žurnāli: cik lielam atļauts pieaugt saistību žurnālam
  • Vienlaicīgums: cik daudz pavedienu var veikt rakstīšanas un lasīšanas darbību
  • Kešatmiņa: noskaņojiet kešatmiņas iestatījumus “rindas kešatmiņa” un “taustiņu kešatmiņa”.
  • Noildze: savienojuma taimauta, vaicājuma taimauta uc vērtības
  • JVM parametri: kaudzes lielums, GC kolekcijas algoritmi utt.
  • Karte samazina veiktspēju: kārto, apvieno utt.
  • Ziņojuma rinda: ziņojuma ātrums, lielums utt.

Testa vides vajadzības

Pārbaudes videi jābūt atkarīgai no pārbaudāmās lietojumprogrammas veida. Lielo datu programmatūras testēšanai testa videi jāietver

  • Tam vajadzētu būt pietiekami daudz vietas glabāšanai un liela datu apjoma apstrādei
  • Tam vajadzētu būt kopai ar sadalītiem mezgliem un datiem
  • Tam vajadzētu būt minimālam CPU un atmiņas izmantojumam, lai saglabātu augstu veiktspēju, lai pārbaudītu Big Data veiktspēju

Lielo datu pārbaude, salīdzinot ar Tradicionālā datu bāzes pārbaude

Rekvizīti

Tradicionālā datu bāzes pārbaude

Lielu datu pārbaude

Dati

  • Testētāja darbs ar strukturētiem datiem
  • Testeris darbojas gan ar strukturētiem, gan ar nestrukturētiem datiem

Pieejas pārbaude

  • Testēšanas pieeja ir labi definēta un pārbaudīta laikā
  • Testēšanas pieeja prasa koncentrētus pētniecības un attīstības centienus

Testēšanas stratēģija

  • Testētājam ir iespēja “atlases” stratēģiju veikt manuāli vai “pilnīgas verifikācijas” stratēģiju, izmantojot automatizācijas rīku
  • "Izlases" stratēģija lielajos datos ir izaicinājums

Infrastruktūra

  • Tam nav nepieciešama īpaša testa vide, jo faila lielums ir ierobežots
  • Liela datu apjoma un failu dēļ (HDFS) nepieciešama īpaša testa vide.

Validācijas rīki

Testeris izmanto vai nu uz Excel balstītus makro, vai uz lietotāja saskarni balstītus automatizācijas rīkus

Nav definētu rīku, diapazons ir plašs, sākot no programmēšanas rīkiem, piemēram, MapReduce, līdz HIVEQL

Pārbaudes rīki

Testēšanas rīkus var izmantot ar pamata darbības zināšanām un mazāk apmācību.

Lai darbinātu testēšanas rīku, tam ir nepieciešams īpašs prasmju un apmācības kopums. Arī rīki ir to topošajā stadijā, un laika gaitā tas var nākt klajā ar jaunām funkcijām.

Lielo datu scenārijos izmantotie rīki

Lielo datu kopa

Lielo datu rīki

NoSQL:

  • CouchDB, datu bāzes MongoDB, Cassandra, Redis, ZooKeeper, HBase

MapReduce:

  • Hadoop, strops, cūka, kaskādes, Oozie, Kafka, S4, MapR, Flume

Uzglabāšana:

  • S3, HDFS (Hadoop izplatītā failu sistēma)

Serveri:

  • Elastic, Heroku, Elastic, Google App Engine, EC2

Apstrāde

  • R, Yahoo! Caurules, mehāniskais turks, BigSheets, Datameer

Lielo datu testēšanas izaicinājumi

  • Automatizācija

    Lielo datu automatizācijas testēšanai ir nepieciešama persona, kurai ir tehniskas zināšanas. Arī automatizētie rīki nav aprīkoti, lai risinātu negaidītas problēmas, kas rodas testēšanas laikā

  • Virtualizācija

    Tas ir viens no neatņemamiem testēšanas posmiem. Virtuālās mašīnas latentums rada laika problēmas reālā laika lielo datu veiktspējas testēšanā. Arī attēlu pārvaldīšana lielajos datos ir apgrūtināta.

  • Liela datu kopa
    • Nepieciešams pārbaudīt vairāk datu un tas jādara ātrāk
    • Nepieciešams automatizēt testēšanas centienus
    • Jāprot testēt dažādās platformās

Veiktspējas testēšanas izaicinājumi

  • Daudzveidīgs tehnoloģiju kopums : katrs apakškomponents pieder atšķirīgai tehnoloģijai, un tas jāpārbauda atsevišķi
  • Konkrētu rīku nepieejamība : Neviens atsevišķs rīks nevar veikt pilnīgu testēšanu. Piemēram, NoSQL var nederēt ziņojumu rindām
  • Testa skripti : Lai izstrādātu testa scenārijus un testa gadījumus, ir nepieciešama augsta līmeņa skriptu sagatavošana
  • Testa vide : Liela datu apjoma dēļ tai nepieciešama īpaša testa vide
  • Monitoringa risinājums : pastāv ierobežoti risinājumi, kas var uzraudzīt visu vidi
  • Diagnostikas risinājums : ir jāizstrādā pielāgots risinājums, lai izpētītu veiktspējas vājās vietas

Kopsavilkums

  • Tā kā datu inženierija un datu analīze pāriet uz nākamo līmeni, lielo datu pārbaude ir neizbēgama.
  • Liela datu apstrāde var būt pakešdatne, reāllaika vai interaktīva
  • 3 lielo datu lietojumprogrammu testēšanas posmi ir
    • Datu pakāpeniskas pārbaudes
    • "MapReduce" validācija
    • Rezultātu validācijas fāze
  • Arhitektūras testēšana ir svarīgs lielo datu testēšanas posms, jo slikti izstrādāta sistēma var izraisīt vēl nebijušas kļūdas un veiktspējas pasliktināšanos
  • Lielo datu veiktspējas pārbaude ietver verifikāciju
    • Datu caurlaidspēja
    • Datu apstrāde
    • Apakškomponentu veiktspēja
  • Lielo datu testēšana ļoti atšķiras no tradicionālās datu testēšanas datu, infrastruktūras un apstiprināšanas rīku ziņā
  • Lielo datu testēšanas izaicinājumi ietver virtualizāciju, testēšanas automatizāciju un lielu datu kopu. Jautājums ir arī par Big Data lietojumprogrammu veiktspējas pārbaudi.