Kas ir uzraudzīta mašīnmācīšanās?
Pārraudzītās mācībās jūs apmācāt mašīnu, izmantojot datus, kas ir labi apzīmēti . Tas nozīmē, ka daži dati jau ir atzīmēti ar pareizo atbildi. To var salīdzināt ar mācīšanos, kas notiek vadītāja vai skolotāja klātbūtnē.
Uzraudzīts mācību algoritms mācās no marķētiem apmācības datiem, palīdz jums paredzēt neparedzētu datu rezultātus.
Precīzu uzraudzītu mašīnmācīšanās modeļu veiksmīgai izveidei, mērogošanai un ieviešanai ir vajadzīgs laiks un tehniska pieredze no augsti kvalificētu datu zinātnieku komandas. Turklāt Datu zinātniekam ir jāpārbūvē modeļi, lai pārliecinātos, ka sniegtā atziņa paliek patiesa, līdz tās dati mainās.
Šajā apmācībā jūs uzzināsiet:
- Kas ir uzraudzīta mašīnmācīšanās?
- Kā darbojas uzraudzīta mācīšanās
- Vadāmo mašīnmācīšanās algoritmu veidi
- Mašīnmācīšanās paņēmieni ar uzraudzību vai bez uzraudzības
- Izaicinājumi vadāmā mašīnmācībā
- Uzraudzītās mācīšanās priekšrocības:
- Pārraudzītas mācīšanās trūkumi
- Labākā prakse uzraudzītai apmācībai
Kā darbojas uzraudzīta mācīšanās
Piemēram, jūs vēlaties apmācīt mašīnu, lai palīdzētu jums paredzēt, cik ilgi jums būs jābrauc mājās no savas darbavietas. Šeit jūs vispirms izveidojat iezīmētu datu kopu. Šie dati ietver
- Laika apstākļi
- Dienas laiks
- Brīvdienas
Visa šī informācija ir jūsu ieguldījums. Rezultāts ir laiks, kas bija vajadzīgs, lai šajā konkrētajā dienā atgrieztos mājās.
Jūs instinktīvi zināt, ka, ja ārā līst lietus, tad jums būs nepieciešams ilgāks laiks, lai brauktu mājās. Bet mašīnai ir nepieciešami dati un statistika.
Apskatīsim, kā jūs varat izstrādāt šī piemēra uzraudzītu mācību modeli, kas palīdzēs lietotājam noteikt pārvietošanās laiku. Vispirms jums ir jāizveido apmācības komplekts. Šajā apmācības komplektā būs kopējais brauciena laiks un atbilstoši faktori, piemēram, laika apstākļi, laiks utt. Pamatojoties uz šo apmācību komplektu, jūsu mašīna var redzēt, ka ir tieša saistība starp lietus daudzumu un laiku, kas jums būs nepieciešams, lai nokļūtu mājās.
Tātad, tas pārliecinās, ka jo vairāk līst lietus, jo ilgāk jūs brauksiet, lai atgrieztos savās mājās. Tas var arī redzēt saikni starp laiku, kad atstājat darbu, un laiku, kad būsiet ceļā.
Jo tuvāk jūs esat pulksten 18, jo ilgāk jums jāiet mājās. Jūsu mašīna var atrast dažas saistības ar jūsu iezīmētajiem datiem.
Šis ir jūsu datu modeļa sākums. Tas sāk ietekmēt to, kā lietus ietekmē cilvēku braukšanas veidu. Tas arī sāk redzēt, ka vairāk cilvēku ceļo noteiktā dienas laikā.
Vadāmo mašīnmācīšanās algoritmu veidi
Regresija:
Regresijas paņēmiens paredz vienu izejas vērtību, izmantojot apmācības datus.
Piemērs : Jūs varat izmantot regresiju, lai prognozētu mājas cenu pēc apmācības datiem. Ievades mainīgie būs atrašanās vieta, mājas lielums utt.
Stiprās puses : izvadiem vienmēr ir varbūtības interpretācija, un algoritmu var regulēt, lai izvairītos no pārspīlēšanas.
Vājās puses : Loģistiskā regresija var izrādīties nepietiekama, ja ir vairākas vai nelineāras lēmuma robežas. Šī metode nav elastīga, tāpēc tā neuztver sarežģītākas attiecības.
Loģistiskā regresija:
Loģistiskās regresijas metode, ko izmanto, lai novērtētu diskrētas vērtības, pamatojoties uz doto neatkarīgo mainīgo lielumu kopumu. Tas palīdz jums paredzēt notikuma iestāšanās varbūtību, pielāgojot datus logit funkcijai. Tāpēc to sauc arī par loģistisko regresiju. Tā kā tā paredz varbūtību, tā izejas vērtība ir no 0 līdz 1.
Šeit ir daži regresijas algoritmu veidi
Klasifikācija:
Klasifikācija nozīmē produkcijas grupēšanu klases iekšienē. Ja algoritms mēģina iezīmēt ievadi divās atšķirīgās klasēs, to sauc par bināro klasifikāciju. Izvēle starp vairāk nekā divām klasēm tiek dēvēta par daudzklasīgu klasifikāciju.
Piemērs : nosakot, vai kāds būs aizdevuma neizpildītājs.
Stiprās puses : Klasifikācijas koks praksē darbojas ļoti labi
Vājās puses : Nepiespiesti, atsevišķi koki ir pakļauti pārmērīgai fitēšanai.
Šeit ir daži klasifikācijas algoritmu veidi
Naivi Bayes klasifikatori
Naivais Bajesa modelis (NBN) ir viegli izveidojams un ļoti noderīgs lielām datu kopām. Šo metodi veido tiešie acikliskie grafiki ar vienu no vecākiem un vairākiem bērniem. Tas pieņem neatkarību starp bērnu mezgliem, kas atdalīti no vecākiem.
Lēmumu koki
Lēmumu koki klasificē instanci, tos sakārtojot, pamatojoties uz objekta vērtību. Šajā metodē katrs režīms ir instances iezīme. Tam vajadzētu būt klasificētam, un katra filiāle atspoguļo vērtību, kuru mezgls var pieņemt. Tā ir plaši izmantota klasifikācijas tehnika. Šajā metodē klasifikācija ir koks, kas ir pazīstams kā lēmumu koks.
Tas palīdz novērtēt reālās vērtības (automašīnas iegādes izmaksas, zvanu skaitu, kopējo ikmēneša pārdošanas apjomu utt.).
Atbalsta Vector Machine
Atbalsta vektora mašīna (SVM) ir mācīšanās algoritma veids, kas izstrādāts 1990. gadā. Šī metode ir balstīta uz Vap Nik ieviestās statistiskās mācīšanās teorijas rezultātiem.
SVM mašīnas ir cieši saistītas arī ar kodola funkcijām, kas ir galvenā koncepcija lielākajai daļai mācību uzdevumu. Kodola ietvars un SVM tiek izmantoti dažādos laukos. Tas ietver multivides informācijas iegūšanu, bioinformātiku un modeļu atpazīšanu.
Mašīnmācīšanās paņēmieni ar uzraudzību vai bez uzraudzības
Balstoties uz | Vadīta mašīnmācīšanās tehnika | Nepārraudzīta mašīnmācīšanās tehnika |
Ievades dati | Algoritmi tiek apmācīti, izmantojot marķētus datus. | Algoritmus izmanto pret datiem, kas nav marķēti |
Skaitļošanas sarežģītība | Mācīšanās ar uzraudzību ir vienkāršāka metode. | Nepārraudzīta mācīšanās ir skaitļošanas ziņā sarežģīta |
Precizitāte | Ļoti precīza un uzticama metode. | Mazāk precīza un uzticama metode. |
Izaicinājumi vadāmā mašīnmācībā
Šeit ir problēmas, ar kurām jāsaskaras uzraudzītā mašīnmācībā:
- Pašreizējie apmācības dati par neatbilstošu ievades funkciju varētu dot neprecīzus rezultātus
- Datu sagatavošana un iepriekšēja apstrāde vienmēr ir izaicinājums.
- Precizitāte cieš, ja neiespējamas, maz ticamas un nepilnīgas vērtības ir ievadītas kā apmācības dati
- Ja attiecīgais eksperts nav pieejams, tad otra pieeja ir "brutāls spēks". Tas nozīmē, ka jums jādomā, vai pareizās funkcijas (ievades mainīgie), lai apmācītu mašīnu. Tas varētu būt neprecīzs.
Uzraudzītās mācīšanās priekšrocības:
- Mācīšanās ar uzraudzību ļauj apkopot datus vai iegūt datu izvadi no iepriekšējās pieredzes
- Palīdz jums optimizēt veiktspējas kritērijus, izmantojot pieredzi
- Vadīta mašīnmācīšanās palīdz jums atrisināt dažāda veida reālās pasaules skaitļošanas problēmas.
Pārraudzītas mācīšanās trūkumi
- Lēmuma robeža var būt pārspīlēta, ja jūsu apmācību komplektā nav piemēru, kurus vēlaties klasē
- Apmācot klasifikatoru, no katras klases jāizvēlas daudz labu piemēru.
- Lielo datu klasificēšana var būt īsts izaicinājums.
- Apmācībai uzraudzītai apmācībai nepieciešams daudz laika.
Labākā prakse uzraudzītai apmācībai
- Pirms darīt kaut ko citu, jums jāizlemj, kādi dati tiks izmantoti kā apmācību kopa
- Jums jāizlemj apgūtās funkcijas struktūra un mācīšanās algoritms.
- Gathere attiecīgos rezultātus vai nu no cilvēku ekspertiem, vai no mērījumiem
Kopsavilkums
- Pārraudzītās mācībās jūs apmācāt mašīnu, izmantojot datus, kas ir labi apzīmēti.
- Jūs vēlaties apmācīt mašīnu, kas palīdzēs jums paredzēt, cik ilgi jums būs jābrauc mājās no savas darbavietas. Tas ir uzraudzītas mācīšanās piemērs
- Regresija un klasifikācija ir divu veidu uzraudzītas mašīnmācīšanās metodes.
- Uzraudzītā mācīšanās ir vienkāršāka metode, savukārt bez uzraudzības - sarežģīta metode.
- Pārraudzītās mācībās lielākais izaicinājums ir tas, ka neatbilstošie ievades elementi, kas satur apmācības datus, varētu dot neprecīzus rezultātus.
- Uzraudzītās mācīšanās galvenā priekšrocība ir tā, ka tā ļauj jums apkopot datus vai iegūt datu izvadi no iepriekšējās pieredzes.
- Šī modeļa trūkums ir tāds, ka lēmuma robeža var būt pārspīlēta, ja jūsu apmācību komplektā nav piemēru, kurus vēlaties klasē.
- Kā paraugprakse mācību uzraudzībai vispirms jāizlemj, kādi dati jāizmanto kā mācību komplekts.