Lielo datu testēšanas apmācība: kas ir, stratēģija, kā pārbaudīt Hadoop

Lielo datu pārbaude

Lielo datu testēšana ir lielo datu lietojumprogrammas testēšanas process, lai nodrošinātu, ka visas lielo datu lietojumprogrammas funkcijas darbojas kā paredzēts. Lielo datu testēšanas mērķis ir pārliecināties, ka lielo datu sistēma darbojas vienmērīgi un bez kļūdām, vienlaikus saglabājot veiktspēju un drošību.

Lielie dati ir lielu datu kopu kolekcija, kuras nevar apstrādāt, izmantojot tradicionālās skaitļošanas metodes. Šo datu kopu pārbaude ietver dažādus apstrādes rīkus, paņēmienus un ietvarus. Lielie dati attiecas uz datu izveidi, glabāšanu, izguvi un analīzi, kas ir ievērojama apjoma, daudzveidības un ātruma ziņā. Šeit varat uzzināt vairāk par Big Data, Hadoop un MapReduce

Šajā lielo datu testēšanas apmācībā jūs uzzināsiet

Kas ir lielo datu testēšanas stratēģija?
Kā pārbaudīt Hadoop lietojumprogrammas
Arhitektūras testēšana
Veiktspējas pārbaude
Veiktspējas pārbaudes pieeja
Veiktspējas testēšanas parametri
Testa vides vajadzības
Lielo datu pārbaude, salīdzinot ar Tradicionālā datu bāzes pārbaude
Lielo datu scenārijos izmantotie rīki
Lielo datu testēšanas izaicinājumi

Kas ir lielo datu testēšanas stratēģija?

Lielo datu lietojumprogrammas pārbaude ir vairāk tās datu apstrādes pārbaude, nevis programmatūras produkta atsevišķu īpašību pārbaude. Runājot par lielo datu testēšanu, galvenie ir veiktspējas un funkcionālā pārbaude .

Lielo datu testēšanas stratēģijā kvalitātes nodrošināšanas inženieri pārbauda datu terabaitu veiksmīgu apstrādi, izmantojot preču kopu un citus atbalsta komponentus. Tas prasa augstu prasmju testēšanas līmeni, jo apstrāde notiek ļoti ātri. Apstrāde var būt trīs veidu

Līdz ar to datu kvalitāte ir arī svarīgs faktors Hadoop testēšanā. Pirms lietojumprogrammas testēšanas ir jāpārbauda datu kvalitāte, un tas jāuzskata par daļu no datu bāzes testēšanas. Tas ietver dažādu īpašību pārbaudi, piemēram, atbilstību, precizitāti, dublēšanos, konsekvenci, derīgumu, datu pilnīgumu utt. Tālāk šajā Hadoop testēšanas apmācībā mēs uzzināsim, kā pārbaudīt Hadoop lietojumprogrammas.

Kā pārbaudīt Hadoop lietojumprogrammas

Šis attēls sniedz augsta līmeņa pārskatu par lielo datu lietojumprogrammu testēšanas fāzēm

Lielo datu testēšanu vai Hadoop testēšanu kopumā var iedalīt trīs posmos

1. darbība. Datu pakāpeniskas validācija

Pirmais solis šajā lielo datu testēšanas apmācībā tiek dēvēts par pirms Hadoop posmu, kas ietver procesa validāciju.

Dati no dažādiem avotiem, piemēram, RDBMS, tīmekļa žurnāliem, sociālajiem medijiem utt., Būtu jāapstiprina, lai pārliecinātos, ka sistēmā tiek ievilkti pareizi dati
Avota datu salīdzināšana ar Hadoop sistēmā ievietotajiem datiem, lai pārliecinātos, ka tie sakrīt
Pārbaudiet, vai pareizie dati ir iegūti un ielādēti pareizajā HDFS vietā

Datu pakāpeniskai pārbaudei var izmantot tādus rīkus kā Talend , Datameer

2. darbība: validācija "MapReduce"

Otrais solis ir "MapReduce" validācija. Šajā posmā lielo datu testeris pārbauda biznesa loģikas validāciju katrā mezglā un pēc tam pārbauda tos pēc palaišanas pret vairākiem mezgliem, nodrošinot, ka

Kartes samazināšanas process darbojas pareizi
Uz datiem tiek ieviesti datu apkopošanas vai nošķiršanas noteikumi
Tiek ģenerēti galveno vērtību pāri
Datu pārbaude pēc kartes samazināšanas procesa

3. solis: izejas validācijas fāze

Hadoop testēšanas pēdējais vai trešais posms ir izejas validācijas process. Izvades datu faili tiek ģenerēti un gatavi pārvietošanai uz EDW (Enterprise Data Warehouse) vai jebkuru citu sistēmu, kuras pamatā ir prasība.

Darbības trešajā posmā ietver

Lai pārbaudītu, vai transformācijas noteikumi ir pareizi piemēroti
Lai pārbaudītu datu integritāti un veiksmīgu datu ielādi mērķa sistēmā
Lai pārbaudītu, vai nav datu bojājumu, salīdzinot mērķa datus ar HDFS failu sistēmas datiem

Arhitektūras testēšana

Hadoops apstrādā ļoti lielu datu apjomu un prasa daudz resursu. Tādējādi arhitektūras pārbaudei ir izšķiroša nozīme, lai nodrošinātu jūsu Big Data projekta panākumus. Nepareizi vai nepareizi projektēta sistēma var izraisīt veiktspējas pasliktināšanos, un sistēma varētu neatbilst prasībai. Vismaz veiktspējas un kļūmes pārbaudes pakalpojumi jāveic Hadoop vidē.

Veiktspējas pārbaude ietver darba pabeigšanas laika, atmiņas izmantošanas, datu caurlaidspējas un līdzīgas sistēmas metrikas pārbaudi. Kaut arī kļūmjpārlēces testa pakalpojuma motīvs ir pārbaudīt, vai datu mezglu kļūmes gadījumā datu apstrāde notiek vienmērīgi

Veiktspējas pārbaude

Lielo datu veiktspējas pārbaude ietver divas galvenās darbības

Datu uzņemšana un darbība : šajā posmā lielo datu testeris pārbauda, kā ātrā sistēma var patērēt datus no dažādiem datu avotiem. Testēšana ietver cita ziņojuma identificēšanu, kuru rinda var apstrādāt noteiktā laika posmā. Tas ietver arī to, cik ātri datus var ievietot pamatā esošajā datu krātuvē, piemēram, ievietošanas ātrumu Mongo un Cassandra datu bāzē.
Datu apstrāde : tas ietver pārbaudi, cik ātri tiek izpildīti vaicājumi vai karte, kas samazina darbu skaitu. Tas ietver arī datu apstrādes pārbaudi atsevišķi, ja datu kopās tiek aizpildīts pamatā esošais datu krājums. Piemēram, Map Reduce darbavietu palaišana pamatā esošajā HDFS
Apakškomponentu veiktspēja : Šīs sistēmas sastāv no vairākiem komponentiem, un ir svarīgi katru no šiem komponentiem pārbaudīt atsevišķi. Piemēram, cik ātri ziņojums tiek indeksēts un patērēts, MapReduce darbi, vaicājumu veiktspēja, meklēšana utt.

Veiktspējas pārbaudes pieeja

Lielo datu lietojuma veiktspējas pārbaude ietver milzīgu strukturētu un nestrukturētu datu apjomu testēšanu, un, lai pārbaudītu tik masīvus datus, nepieciešama īpaša testēšanas pieeja.

Veiktspējas pārbaude tiek veikta šādā secībā

Process sākas ar lielo datu kopas iestatīšanu, kuras veiktspēja ir jāpārbauda
Identificējiet un noformējiet atbilstošās slodzes
Sagatavojiet atsevišķus klientus (tiek izveidoti pielāgoti skripti)
Izpildiet testu un analizējiet rezultātu (ja mērķi nav sasniegti, noregulējiet komponentu un izpildiet no jauna)
Optimāla konfigurācija

Veiktspējas testēšanas parametri

Dažādi parametri, kas jāpārbauda veiktspējas pārbaudei, ir

Datu glabāšana: kā dati tiek glabāti dažādos mezglos
Saistību žurnāli: cik lielam atļauts pieaugt saistību žurnālam
Vienlaicīgums: cik daudz pavedienu var veikt rakstīšanas un lasīšanas darbību
Kešatmiņa: noskaņojiet kešatmiņas iestatījumus “rindas kešatmiņa” un “taustiņu kešatmiņa”.
Noildze: savienojuma taimauta, vaicājuma taimauta uc vērtības
JVM parametri: kaudzes lielums, GC kolekcijas algoritmi utt.
Karte samazina veiktspēju: kārto, apvieno utt.
Ziņojuma rinda: ziņojuma ātrums, lielums utt.

Testa vides vajadzības

Pārbaudes videi jābūt atkarīgai no pārbaudāmās lietojumprogrammas veida. Lielo datu programmatūras testēšanai testa videi jāietver

Tam vajadzētu būt pietiekami daudz vietas glabāšanai un liela datu apjoma apstrādei
Tam vajadzētu būt kopai ar sadalītiem mezgliem un datiem
Tam vajadzētu būt minimālam CPU un atmiņas izmantojumam, lai saglabātu augstu veiktspēju, lai pārbaudītu Big Data veiktspēju

Lielo datu pārbaude, salīdzinot ar Tradicionālā datu bāzes pārbaude

Rekvizīti	Tradicionālā datu bāzes pārbaude	Lielu datu pārbaude
Dati	Testētāja darbs ar strukturētiem datiem	Testeris darbojas gan ar strukturētiem, gan ar nestrukturētiem datiem
Pieejas pārbaude	Testēšanas pieeja ir labi definēta un pārbaudīta laikā	Testēšanas pieeja prasa koncentrētus pētniecības un attīstības centienus
Testēšanas stratēģija	Testētājam ir iespēja “atlases” stratēģiju veikt manuāli vai “pilnīgas verifikācijas” stratēģiju, izmantojot automatizācijas rīku	"Izlases" stratēģija lielajos datos ir izaicinājums
Infrastruktūra	Tam nav nepieciešama īpaša testa vide, jo faila lielums ir ierobežots	Liela datu apjoma un failu dēļ (HDFS) nepieciešama īpaša testa vide.
Validācijas rīki	Testeris izmanto vai nu uz Excel balstītus makro, vai uz lietotāja saskarni balstītus automatizācijas rīkus	Nav definētu rīku, diapazons ir plašs, sākot no programmēšanas rīkiem, piemēram, MapReduce, līdz HIVEQL
Pārbaudes rīki	Testēšanas rīkus var izmantot ar pamata darbības zināšanām un mazāk apmācību.	Lai darbinātu testēšanas rīku, tam ir nepieciešams īpašs prasmju un apmācības kopums. Arī rīki ir to topošajā stadijā, un laika gaitā tas var nākt klajā ar jaunām funkcijām.

Lielo datu scenārijos izmantotie rīki

Lielo datu kopa	Lielo datu rīki
NoSQL:	CouchDB, datu bāzes MongoDB, Cassandra, Redis, ZooKeeper, HBase
MapReduce:	Hadoop, strops, cūka, kaskādes, Oozie, Kafka, S4, MapR, Flume
Uzglabāšana:	S3, HDFS (Hadoop izplatītā failu sistēma)
Serveri:	Elastic, Heroku, Elastic, Google App Engine, EC2
Apstrāde	R, Yahoo! Caurules, mehāniskais turks, BigSheets, Datameer

Lielo datu testēšanas izaicinājumi

Automatizācija
Lielo datu automatizācijas testēšanai ir nepieciešama persona, kurai ir tehniskas zināšanas. Arī automatizētie rīki nav aprīkoti, lai risinātu negaidītas problēmas, kas rodas testēšanas laikā
Virtualizācija
Tas ir viens no neatņemamiem testēšanas posmiem. Virtuālās mašīnas latentums rada laika problēmas reālā laika lielo datu veiktspējas testēšanā. Arī attēlu pārvaldīšana lielajos datos ir apgrūtināta.
Liela datu kopa
- Nepieciešams pārbaudīt vairāk datu un tas jādara ātrāk
- Nepieciešams automatizēt testēšanas centienus
- Jāprot testēt dažādās platformās

Veiktspējas testēšanas izaicinājumi

Daudzveidīgs tehnoloģiju kopums : katrs apakškomponents pieder atšķirīgai tehnoloģijai, un tas jāpārbauda atsevišķi
Konkrētu rīku nepieejamība : Neviens atsevišķs rīks nevar veikt pilnīgu testēšanu. Piemēram, NoSQL var nederēt ziņojumu rindām
Testa skripti : Lai izstrādātu testa scenārijus un testa gadījumus, ir nepieciešama augsta līmeņa skriptu sagatavošana
Testa vide : Liela datu apjoma dēļ tai nepieciešama īpaša testa vide
Monitoringa risinājums : pastāv ierobežoti risinājumi, kas var uzraudzīt visu vidi
Diagnostikas risinājums : ir jāizstrādā pielāgots risinājums, lai izpētītu veiktspējas vājās vietas

Kopsavilkums

Tā kā datu inženierija un datu analīze pāriet uz nākamo līmeni, lielo datu pārbaude ir neizbēgama.
Liela datu apstrāde var būt pakešdatne, reāllaika vai interaktīva
3 lielo datu lietojumprogrammu testēšanas posmi ir
- Datu pakāpeniskas pārbaudes
- "MapReduce" validācija
- Rezultātu validācijas fāze
Arhitektūras testēšana ir svarīgs lielo datu testēšanas posms, jo slikti izstrādāta sistēma var izraisīt vēl nebijušas kļūdas un veiktspējas pasliktināšanos
Lielo datu veiktspējas pārbaude ietver verifikāciju
- Datu caurlaidspēja
- Datu apstrāde
- Apakškomponentu veiktspēja
Lielo datu testēšana ļoti atšķiras no tradicionālās datu testēšanas datu, infrastruktūras un apstiprināšanas rīku ziņā
Lielo datu testēšanas izaicinājumi ietver virtualizāciju, testēšanas automatizāciju un lielu datu kopu. Jautājums ir arī par Big Data lietojumprogrammu veiktspējas pārbaudi.

Lielo datu testēšanas apmācība: kas ir, stratēģija, kā pārbaudīt Hadoop

Satura rādītājs:

Lielo datu pārbaude

Kas ir lielo datu testēšanas stratēģija?

Kā pārbaudīt Hadoop lietojumprogrammas

1. darbība. Datu pakāpeniskas validācija

2. darbība: validācija "MapReduce"

3. solis: izejas validācijas fāze

Arhitektūras testēšana

Veiktspējas pārbaude

Veiktspējas pārbaudes pieeja

Veiktspējas testēšanas parametri

Testa vides vajadzības

Lielo datu pārbaude, salīdzinot ar Tradicionālā datu bāzes pārbaude

Lielo datu scenārijos izmantotie rīki

Lielo datu testēšanas izaicinājumi

Labākie reklāmu bloķētāji pārlūkprogrammai Chrome 2021. gadā (BEZMAKSAS Adblock paplašinājums)

20 labākās BEZMAKSAS emuāru platformas (emuāru vietnes) 2021. gadā

20+ labākā bezmaksas fotoattēlu atkopšanas programmatūra 2021. gadā

100+ BEST Chrome paplašinājums 2021. gadā

16 labākās tiešsaistes kursu platformas 2021. gadā

# 34: Google Maps integrēšana un pielāgošana CSS-triki

# 32: Unit PNG Fix izmantošana - CSS-triki

# 33: e-komercijas produktu lapu pārveidošana - CSS-triki

# 35: ievads jQuery 2 - CSS-triki

# 37: Statusa, šķidruma un izvēlņu joslas lietotnes - CSS-triki

Maksājumu vārtejas testēšanas apmācība ar testa gadījumu piemēriem

Mainframe testēšana - pilnīga apmācība

Mazumtirdzniecības tirdzniecības vietu (POS) sistēmu testēšana: testa gadījumu piemēri

HealthCare domēna pārbaude ar testa paraugu paraugiem

Telekomunikāciju domēna pārbaude ar OSS / BSS testa gadījumu paraugiem