Bez uzraudzības mācīšanās
Mācīšanās bez uzraudzības ir mašīnmācīšanās tehnika, kurā lietotājiem nav jāuzrauga modelis. Tā vietā tas ļauj modelim darboties patstāvīgi, lai atklātu modeļus un informāciju, kas iepriekš netika atklāta. Tas galvenokārt nodarbojas ar nemarķētiem datiem.
Bez uzraudzības mācību algoritmi
Bez uzraudzības mācību algoritmi ļauj lietotājiem veikt sarežģītākus apstrādes uzdevumus, salīdzinot ar uzraudzītu mācīšanos. Lai gan bez uzraudzības mācīšanās var būt neparedzamāka salīdzinājumā ar citām dabiskām mācīšanās metodēm. Nepārraudzīti mācību algoritmi ietver kopu izveidi, anomāliju noteikšanu, neironu tīklus utt.
Šajā apmācībā jūs uzzināsiet:
- Nepieskatītas mašīnmācīšanās piemērs
- Kāpēc jāmācās bez uzraudzības?
- Nepieskatītas mācīšanās veidi
- Kopu veidošana
- Klasterizācijas veidi
- Asociācija
- Uzraudzīta vai nepieskatīta mašīnmācīšanās
- Nepieskatītas mašīnmācīšanās pielietojumi
- Nepieskatītas mācīšanās trūkumi
Nepieskatītas mašīnmācīšanās piemērs
Pieņemsim bērnu un viņas ģimenes suni.
Viņa pazīst un identificē šo suni. Pēc dažām nedēļām ģimenes draugs atved suni un mēģina rotaļāties ar bērnu.
Mazulis šo suni nav redzējis agrāk. Bet tas atzīst daudzas pazīmes (2 ausis, acis, staigāšana uz četrām kājām) ir kā viņas lolojumdzīvnieku suns. Viņa identificē jauno dzīvnieku kā suni. Tā ir bez uzraudzības mācīšanās, kurā jūs nemāca, bet mācāties no datiem (šajā gadījumā dati par suni.) Ja tas būtu bijis uzraudzīts, ģimenes draugs būtu teicis mazulim, ka tas ir suns.
Kāpēc jāmācās bez uzraudzības?
Šeit ir galvenie iemesli, kāpēc tiek izmantota bez uzraudzības:
- Nepieskatīta mašīnmācīšanās atrod visu veidu nezināmus modeļus datos.
- Nepieskatītas metodes palīdz atrast funkcijas, kas var noderēt kategorizēšanai.
- Tas notiek reāllaikā, tāpēc visi ieejas dati jāanalizē un jāapzīmē izglītojamo klātbūtnē.
- No etiķetēm nesaistītus datus no datora iegūt ir vieglāk nekā ar iezīmētiem datiem, kam nepieciešama manuāla iejaukšanās.
Nepieskatītas mācīšanās veidi
Nepieskatītas mācīšanās problēmas tika grupētas grupēšanas un asociācijas problēmās.
Kopu veidošana
Klasteru veidošana ir svarīgs jēdziens, kad runa ir par bez uzraudzības. Tas galvenokārt nodarbojas ar struktūras vai modeļa atrašanu nekategorizētu datu kolekcijā. Klasterizācijas algoritmi apstrādās jūsu datus un atradīs dabiskās kopas (grupas), ja tādi pastāv. Varat arī modificēt, cik klasteru jūsu algoritmiem vajadzētu identificēt. Tas ļauj pielāgot šo grupu precizitāti.
Ir dažādi klasteru veidi, kurus varat izmantot:
Ekskluzīvs (sadalīšana)
Šajā klasterizācijas metodē dati tiek sagrupēti tā, lai vieni dati varētu piederēt tikai vienai klasterim.
Piemērs: K nozīmē
Aglomerācija
Šajā klasterizācijas tehnikā visi dati ir kopa. Atkārtojamās savienības starp diviem tuvākajiem kopiem samazina kopu skaitu.
Piemērs: hierarhiska kopu veidošana
Pārklājas
Šajā tehnikā neskaidras kopas tiek izmantotas datu kopai. Katrs punkts var piederēt divām vai vairākām kopām ar atsevišķu dalības pakāpi.
Šeit dati tiks saistīti ar atbilstošu dalības vērtību. Piemērs: neskaidri C līdzekļi
Varbūtība
Šis paņēmiens izmanto varbūtību sadalījumu, lai izveidotu kopas
Piemērs: Pēc atslēgvārdiem
- "cilvēka apavu".
- "sieviešu apavu".
- "sieviešu cimds".
- "cilvēka cimds".
var iedalīt divās kategorijās: "apavi" un "cimdi" vai "vīrietis" un "sievietes".
Klasterizācijas veidi
- Hierarhiska kopu veidošana
- K nozīmē klasterizāciju
- K-NN (k tuvākie kaimiņi)
- Galveno komponentu analīze
- Vienskaitļa vērtības sadalīšanās
- Neatkarīga komponentu analīze
Hierarhiskā kopu veidošana:
Hierarhiskā kopu veidošana ir algoritms, kas veido kopu hierarhiju. Tas sākas ar visiem datiem, kas tiek piešķirti viņu pašu kopai. Šeit divi tuvu kopas atradīsies vienā un tajā pašā kopā. Šis algoritms beidzas, kad ir palicis tikai viens klasteris.
K nozīmē klasterizāciju
K nozīmē, ka tas ir iteratīvs klasterizācijas algoritms, kas palīdz jums atrast visaugstāko vērtību katrai iterācijai. Sākumā tiek izvēlēts vēlamais kopu skaits. Šajā klasterizācijas metodē datu punkti jāklaszina k grupās. Lielāks k nozīmē mazākas grupas ar lielāku precizitāti tādā pašā veidā. Zemāks k nozīmē lielākas grupas ar mazāku precizitāti.
Algoritma izeja ir "etiķešu" grupa. Tas piešķir datu punktu vienai no k grupām. K-nozīmē klasteros katra grupa tiek definēta, katrai grupai izveidojot centroidu. Centrosīdi ir kā kopas sirds, kas uztver sev vistuvākos punktus un pievieno tos kopai.
K-vidējā klasterizācija tālāk definē divas apakšgrupas:
- Aglomerācijas kopu veidošana
- Dendrogramma
Aglomerācijas kopas:
Šis K-veida klasterizācijas veids sākas ar noteiktu kopu skaitu. Tas visus datus sadala precīzā kopu skaitā. Šai klasterizācijas metodei nav nepieciešams ievadīt kopu K skaitu. Aglomerācijas process sākas, veidojot visus datus kā vienu kopu.
Šī metode izmanto kādu attāluma mērījumu, samazina kopu skaitu (pa vienai katrā atkārtojumā), apvienojot procesu. Visbeidzot, mums ir viena liela kopa, kas satur visus objektus.
Dendrogramma:
Dendrogram klasterizācijas metodē katrs līmenis pārstāvēs iespējamo kopu. Dendrogrammas augstums parāda līdzības līmeni starp divām pievienošanās kopām. Tuvāk procesa apakšai tie ir vairāk līdzīgi kopas, kas ir grupas atrašana no dendrogrammas, kas nav dabiska un galvenokārt subjektīva.
K- Tuvākie kaimiņi
K- tuvākais kaimiņš ir vienkāršākais no visiem mašīnmācīšanās klasifikatoriem. Tas atšķiras no citiem mašīnmācīšanās paņēmieniem, jo tas nerada modeli. Tas ir vienkāršs algoritms, kas saglabā visus pieejamos gadījumus un klasificē jaunus gadījumus, pamatojoties uz līdzības rādītāju.
Tas darbojas ļoti labi, ja starp piemēriem ir attālums. Mācību ātrums ir lēns, ja treniņu komplekts ir liels, un attāluma aprēķins ir nereāls.
Galveno komponentu analīze:
Gadījumā, ja vēlaties augstākas dimensijas telpu. Jums jāizvēlas šīs vietas pamats un tikai 200 svarīgākie šīs bāzes rādītāji. Šī bāze ir pazīstama kā galvenā sastāvdaļa. Jūsu izvēlētā apakškopa ir jauna vieta, kuras izmērs ir mazs, salīdzinot ar sākotnējo vietu. Tas uztur pēc iespējas lielāku datu sarežģītību.
Asociācija
Asociācijas noteikumi ļauj izveidot asociācijas starp datu objektiem lielās datu bāzēs. Šī neuzraudzītā tehnika ir par interesantu attiecību atklāšanu starp mainīgajiem lielās datu bāzēs. Piemēram, cilvēki, kuri iegādājas jaunu māju, visticamāk iegādāsies jaunas mēbeles.
Citi piemēri:
- Vēža slimnieku apakšgrupa, kas sagrupēta pēc viņu gēnu ekspresijas mērījumiem
- Pircēju grupas, pamatojoties uz viņu pārlūkošanas un pirkšanas vēsturi
- Filmu grupa pēc filmu skatītāju piešķirtā vērtējuma
Uzraudzīta vai nepieskatīta mašīnmācīšanās
Parametri | Vadīta mašīnmācīšanās tehnika | Nepārraudzīta mašīnmācīšanās tehnika |
Ievades dati | Algoritmi tiek apmācīti, izmantojot marķētus datus. | Algoritmus izmanto pret datiem, kas nav marķēti |
Skaitļošanas sarežģītība | Mācīšanās ar uzraudzību ir vienkāršāka metode. | Nepārraudzīta mācīšanās ir skaitļošanas ziņā sarežģīta |
Precizitāte | Ļoti precīza un uzticama metode. | Mazāk precīza un uzticama metode. |
Nepieskatītas mašīnmācīšanās pielietojumi
Daži bez uzraudzības mašīnmācīšanās paņēmieni ir šādi:
- Klasterizācija automātiski sadalīja datu kopu grupās, pamatojoties uz to līdzību
- Anomāliju noteikšana var atklāt neparastus datu punktus jūsu datu kopā. Tas ir noderīgi krāpniecisku darījumu atrašanai
- Asociācijas ieguve identificē vienumu kopas, kas jūsu datu kopā bieži notiek kopā
- Latentā mainīgā modeļi tiek plaši izmantoti datu pirmapstrādei. Tāpat kā pazīmju skaita samazināšana datu kopā vai datu kopas sadalīšana vairākos komponentos
Nepieskatītas mācīšanās trūkumi
- Jūs nevarat iegūt precīzu informāciju par datu šķirošanu, un izvade, jo dati, kas tiek izmantoti bez uzraudzības, tiek apzīmēti un nav zināmi
- Mazāka rezultātu precizitāte ir tāpēc, ka ievaddati nav iepriekš zināmi un cilvēki tos nav apzīmējuši. Tas nozīmē, ka mašīnai tas jādara pats.
- Spektrālās klases ne vienmēr atbilst informatīvajām nodarbībām.
- Lietotājam jāpavada laiks, interpretējot un marķējot klases, kas atbilst šai klasifikācijai.
- Arī klašu spektrālās īpašības laika gaitā var mainīties, tāpēc, pārvietojoties no viena attēla uz otru, nevar būt tāda pati informācija par klasēm.
Kopsavilkums
- Nepieskatīta mācīšanās ir mašīnmācīšanās tehnika, kur jums nav jāuzrauga modelis.
- Nepieskatīta mašīnmācīšanās palīdz jums atrast visa veida nezināmus modeļus datos.
- Klasteru veidošana un asociācija ir divi bez uzraudzības principi.
- Četri klasterizācijas metožu veidi ir 1) ekskluzīvs 2) aglomeratīvs 3) pārklājas 4) varbūtība.
- Svarīgi klasteru veidi ir: 1) hierarhiska kopu veidošana 2) K nozīmē klasterizācija 3) K-NN 4) galveno komponentu analīze 5) vienskaitļa vērtību sadalīšana 6) neatkarīga komponenta analīze.
- Asociācijas noteikumi ļauj izveidot asociācijas starp datu objektiem lielās datu bāzēs.
- Pārraudzītās mācībās algoritmi tiek apmācīti, izmantojot iezīmētos datus, savukārt sadaļā Bez uzraudzības - algoritmi tiek izmantoti pret datiem, kas nav marķēti.
- Anomāliju noteikšana var atklāt svarīgus datu punktus jūsu datu kopā, kas ir noderīgi krāpniecisku darījumu atrašanai.
- Lielākais nepieskatītās mācīšanās trūkums ir tas, ka nevar iegūt precīzu informāciju par datu šķirošanu.