Bez uzraudzības mašīnmācīšanās: kas ir, algoritmi, piemērs

Bez uzraudzības mācīšanās

Mācīšanās bez uzraudzības ir mašīnmācīšanās tehnika, kurā lietotājiem nav jāuzrauga modelis. Tā vietā tas ļauj modelim darboties patstāvīgi, lai atklātu modeļus un informāciju, kas iepriekš netika atklāta. Tas galvenokārt nodarbojas ar nemarķētiem datiem.

Bez uzraudzības mācību algoritmi

Bez uzraudzības mācību algoritmi ļauj lietotājiem veikt sarežģītākus apstrādes uzdevumus, salīdzinot ar uzraudzītu mācīšanos. Lai gan bez uzraudzības mācīšanās var būt neparedzamāka salīdzinājumā ar citām dabiskām mācīšanās metodēm. Nepārraudzīti mācību algoritmi ietver kopu izveidi, anomāliju noteikšanu, neironu tīklus utt.

Šajā apmācībā jūs uzzināsiet:

Nepieskatītas mašīnmācīšanās piemērs
Kāpēc jāmācās bez uzraudzības?
Nepieskatītas mācīšanās veidi
Kopu veidošana
Klasterizācijas veidi
Asociācija
Uzraudzīta vai nepieskatīta mašīnmācīšanās
Nepieskatītas mašīnmācīšanās pielietojumi
Nepieskatītas mācīšanās trūkumi

Nepieskatītas mašīnmācīšanās piemērs

Pieņemsim bērnu un viņas ģimenes suni.

Viņa pazīst un identificē šo suni. Pēc dažām nedēļām ģimenes draugs atved suni un mēģina rotaļāties ar bērnu.

Mazulis šo suni nav redzējis agrāk. Bet tas atzīst daudzas pazīmes (2 ausis, acis, staigāšana uz četrām kājām) ir kā viņas lolojumdzīvnieku suns. Viņa identificē jauno dzīvnieku kā suni. Tā ir bez uzraudzības mācīšanās, kurā jūs nemāca, bet mācāties no datiem (šajā gadījumā dati par suni.) Ja tas būtu bijis uzraudzīts, ģimenes draugs būtu teicis mazulim, ka tas ir suns.

Kāpēc jāmācās bez uzraudzības?

Šeit ir galvenie iemesli, kāpēc tiek izmantota bez uzraudzības:

Nepieskatīta mašīnmācīšanās atrod visu veidu nezināmus modeļus datos.
Nepieskatītas metodes palīdz atrast funkcijas, kas var noderēt kategorizēšanai.
Tas notiek reāllaikā, tāpēc visi ieejas dati jāanalizē un jāapzīmē izglītojamo klātbūtnē.
No etiķetēm nesaistītus datus no datora iegūt ir vieglāk nekā ar iezīmētiem datiem, kam nepieciešama manuāla iejaukšanās.

Nepieskatītas mācīšanās veidi

Nepieskatītas mācīšanās problēmas tika grupētas grupēšanas un asociācijas problēmās.

Kopu veidošana

Klasteru veidošana ir svarīgs jēdziens, kad runa ir par bez uzraudzības. Tas galvenokārt nodarbojas ar struktūras vai modeļa atrašanu nekategorizētu datu kolekcijā. Klasterizācijas algoritmi apstrādās jūsu datus un atradīs dabiskās kopas (grupas), ja tādi pastāv. Varat arī modificēt, cik klasteru jūsu algoritmiem vajadzētu identificēt. Tas ļauj pielāgot šo grupu precizitāti.

Ir dažādi klasteru veidi, kurus varat izmantot:

Ekskluzīvs (sadalīšana)

Šajā klasterizācijas metodē dati tiek sagrupēti tā, lai vieni dati varētu piederēt tikai vienai klasterim.

Piemērs: K nozīmē

Aglomerācija

Šajā klasterizācijas tehnikā visi dati ir kopa. Atkārtojamās savienības starp diviem tuvākajiem kopiem samazina kopu skaitu.

Piemērs: hierarhiska kopu veidošana

Pārklājas

Šajā tehnikā neskaidras kopas tiek izmantotas datu kopai. Katrs punkts var piederēt divām vai vairākām kopām ar atsevišķu dalības pakāpi.

Šeit dati tiks saistīti ar atbilstošu dalības vērtību. Piemērs: neskaidri C līdzekļi

Varbūtība

Šis paņēmiens izmanto varbūtību sadalījumu, lai izveidotu kopas

Piemērs: Pēc atslēgvārdiem

"cilvēka apavu".
"sieviešu apavu".
"sieviešu cimds".
"cilvēka cimds".

var iedalīt divās kategorijās: "apavi" un "cimdi" vai "vīrietis" un "sievietes".

Klasterizācijas veidi

Hierarhiska kopu veidošana
K nozīmē klasterizāciju
K-NN (k tuvākie kaimiņi)
Galveno komponentu analīze
Vienskaitļa vērtības sadalīšanās
Neatkarīga komponentu analīze

Hierarhiskā kopu veidošana:

Hierarhiskā kopu veidošana ir algoritms, kas veido kopu hierarhiju. Tas sākas ar visiem datiem, kas tiek piešķirti viņu pašu kopai. Šeit divi tuvu kopas atradīsies vienā un tajā pašā kopā. Šis algoritms beidzas, kad ir palicis tikai viens klasteris.

K nozīmē klasterizāciju

K nozīmē, ka tas ir iteratīvs klasterizācijas algoritms, kas palīdz jums atrast visaugstāko vērtību katrai iterācijai. Sākumā tiek izvēlēts vēlamais kopu skaits. Šajā klasterizācijas metodē datu punkti jāklaszina k grupās. Lielāks k nozīmē mazākas grupas ar lielāku precizitāti tādā pašā veidā. Zemāks k nozīmē lielākas grupas ar mazāku precizitāti.

Algoritma izeja ir "etiķešu" grupa. Tas piešķir datu punktu vienai no k grupām. K-nozīmē klasteros katra grupa tiek definēta, katrai grupai izveidojot centroidu. Centrosīdi ir kā kopas sirds, kas uztver sev vistuvākos punktus un pievieno tos kopai.

K-vidējā klasterizācija tālāk definē divas apakšgrupas:

Aglomerācijas kopu veidošana
Dendrogramma

Aglomerācijas kopas:

Šis K-veida klasterizācijas veids sākas ar noteiktu kopu skaitu. Tas visus datus sadala precīzā kopu skaitā. Šai klasterizācijas metodei nav nepieciešams ievadīt kopu K skaitu. Aglomerācijas process sākas, veidojot visus datus kā vienu kopu.

Šī metode izmanto kādu attāluma mērījumu, samazina kopu skaitu (pa vienai katrā atkārtojumā), apvienojot procesu. Visbeidzot, mums ir viena liela kopa, kas satur visus objektus.

Dendrogramma:

Dendrogram klasterizācijas metodē katrs līmenis pārstāvēs iespējamo kopu. Dendrogrammas augstums parāda līdzības līmeni starp divām pievienošanās kopām. Tuvāk procesa apakšai tie ir vairāk līdzīgi kopas, kas ir grupas atrašana no dendrogrammas, kas nav dabiska un galvenokārt subjektīva.

K- Tuvākie kaimiņi

K- tuvākais kaimiņš ir vienkāršākais no visiem mašīnmācīšanās klasifikatoriem. Tas atšķiras no citiem mašīnmācīšanās paņēmieniem, jo tas nerada modeli. Tas ir vienkāršs algoritms, kas saglabā visus pieejamos gadījumus un klasificē jaunus gadījumus, pamatojoties uz līdzības rādītāju.

Tas darbojas ļoti labi, ja starp piemēriem ir attālums. Mācību ātrums ir lēns, ja treniņu komplekts ir liels, un attāluma aprēķins ir nereāls.

Galveno komponentu analīze:

Gadījumā, ja vēlaties augstākas dimensijas telpu. Jums jāizvēlas šīs vietas pamats un tikai 200 svarīgākie šīs bāzes rādītāji. Šī bāze ir pazīstama kā galvenā sastāvdaļa. Jūsu izvēlētā apakškopa ir jauna vieta, kuras izmērs ir mazs, salīdzinot ar sākotnējo vietu. Tas uztur pēc iespējas lielāku datu sarežģītību.

Asociācija

Asociācijas noteikumi ļauj izveidot asociācijas starp datu objektiem lielās datu bāzēs. Šī neuzraudzītā tehnika ir par interesantu attiecību atklāšanu starp mainīgajiem lielās datu bāzēs. Piemēram, cilvēki, kuri iegādājas jaunu māju, visticamāk iegādāsies jaunas mēbeles.

Citi piemēri:

Vēža slimnieku apakšgrupa, kas sagrupēta pēc viņu gēnu ekspresijas mērījumiem
Pircēju grupas, pamatojoties uz viņu pārlūkošanas un pirkšanas vēsturi
Filmu grupa pēc filmu skatītāju piešķirtā vērtējuma

Uzraudzīta vai nepieskatīta mašīnmācīšanās

Parametri	Vadīta mašīnmācīšanās tehnika	Nepārraudzīta mašīnmācīšanās tehnika
Ievades dati	Algoritmi tiek apmācīti, izmantojot marķētus datus.	Algoritmus izmanto pret datiem, kas nav marķēti
Skaitļošanas sarežģītība	Mācīšanās ar uzraudzību ir vienkāršāka metode.	Nepārraudzīta mācīšanās ir skaitļošanas ziņā sarežģīta
Precizitāte	Ļoti precīza un uzticama metode.	Mazāk precīza un uzticama metode.

Nepieskatītas mašīnmācīšanās pielietojumi

Daži bez uzraudzības mašīnmācīšanās paņēmieni ir šādi:

Klasterizācija automātiski sadalīja datu kopu grupās, pamatojoties uz to līdzību
Anomāliju noteikšana var atklāt neparastus datu punktus jūsu datu kopā. Tas ir noderīgi krāpniecisku darījumu atrašanai
Asociācijas ieguve identificē vienumu kopas, kas jūsu datu kopā bieži notiek kopā
Latentā mainīgā modeļi tiek plaši izmantoti datu pirmapstrādei. Tāpat kā pazīmju skaita samazināšana datu kopā vai datu kopas sadalīšana vairākos komponentos

Nepieskatītas mācīšanās trūkumi

Jūs nevarat iegūt precīzu informāciju par datu šķirošanu, un izvade, jo dati, kas tiek izmantoti bez uzraudzības, tiek apzīmēti un nav zināmi
Mazāka rezultātu precizitāte ir tāpēc, ka ievaddati nav iepriekš zināmi un cilvēki tos nav apzīmējuši. Tas nozīmē, ka mašīnai tas jādara pats.
Spektrālās klases ne vienmēr atbilst informatīvajām nodarbībām.
Lietotājam jāpavada laiks, interpretējot un marķējot klases, kas atbilst šai klasifikācijai.
Arī klašu spektrālās īpašības laika gaitā var mainīties, tāpēc, pārvietojoties no viena attēla uz otru, nevar būt tāda pati informācija par klasēm.

Kopsavilkums

Nepieskatīta mācīšanās ir mašīnmācīšanās tehnika, kur jums nav jāuzrauga modelis.
Nepieskatīta mašīnmācīšanās palīdz jums atrast visa veida nezināmus modeļus datos.
Klasteru veidošana un asociācija ir divi bez uzraudzības principi.
Četri klasterizācijas metožu veidi ir 1) ekskluzīvs 2) aglomeratīvs 3) pārklājas 4) varbūtība.
Svarīgi klasteru veidi ir: 1) hierarhiska kopu veidošana 2) K nozīmē klasterizācija 3) K-NN 4) galveno komponentu analīze 5) vienskaitļa vērtību sadalīšana 6) neatkarīga komponenta analīze.
Asociācijas noteikumi ļauj izveidot asociācijas starp datu objektiem lielās datu bāzēs.
Pārraudzītās mācībās algoritmi tiek apmācīti, izmantojot iezīmētos datus, savukārt sadaļā Bez uzraudzības - algoritmi tiek izmantoti pret datiem, kas nav marķēti.
Anomāliju noteikšana var atklāt svarīgus datu punktus jūsu datu kopā, kas ir noderīgi krāpniecisku darījumu atrašanai.
Lielākais nepieskatītās mācīšanās trūkums ir tas, ka nevar iegūt precīzu informāciju par datu šķirošanu.

Bez uzraudzības mašīnmācīšanās: kas ir, algoritmi, piemērs

Satura rādītājs:

Bez uzraudzības mācīšanās

Bez uzraudzības mācību algoritmi

Nepieskatītas mašīnmācīšanās piemērs

Kāpēc jāmācās bez uzraudzības?

Nepieskatītas mācīšanās veidi

Kopu veidošana

Ekskluzīvs (sadalīšana)

Aglomerācija

Pārklājas

Varbūtība

Klasterizācijas veidi

Hierarhiskā kopu veidošana:

K nozīmē klasterizāciju

Aglomerācijas kopas:

Dendrogramma:

K- Tuvākie kaimiņi

Galveno komponentu analīze:

Asociācija

Uzraudzīta vai nepieskatīta mašīnmācīšanās

Nepieskatītas mašīnmācīšanās pielietojumi

Nepieskatītas mācīšanās trūkumi

Kopsavilkums

Atšķirība starp faktu tabulu un izmēru tabulu

Pārbaudes pārklājums programmatūras testēšanā

Kas ir regresijas testēšana? Definīcija, testa gadījumi (piemērs)

Vienības testēšanas apmācība: kas ir, veidi, rīki un amp; Pārbaudes PIEMĒRS

25 labākie ETL intervēšanas jautājumu testēšanas & Atbildes

JSP elementi - JSP deklarācija, JSP sintakse, JSP izteiksme, JSP komentāri

JSP direktīvas: Lapa, Iekļaut & Taglib apmācība

JSP netiešie objekti: Pabeidziet apmācību

JSP standarta darbības tagi: include, useBean, forward, param

JSP izteiksmes valodas (EL) apmācība

Izsekošanas loga izmērs tiek mainīts, izmantojot Google Analytics CSS-triki

Apstiprināt vecumu - CSS-triki

Logu ielādes notikums ar minimālu kavēšanos CSS-triki

Pasvītrot atsevišķus vārdus CSS-triki

Darbs ar atribūtiem CSS-triki