Šajā apmācībā jūs uzzināsiet
- Vienkārša lineārā regresija
- Vairāku lineāru regresiju
- Nepārtraukti mainīgie
- Faktoru regresija
- Pakāpeniska regresija
- Mašīnmācīšanās
- Vadīta mācīšanās
- Nepārraudzīta mācīšanās
Vienkārša lineārā regresija
Lineārā regresija atbild uz vienkāršu jautājumu: vai jūs varat izmērīt precīzu saistību starp vienu mērķa mainīgo un pareģotāju kopumu?
Vienkāršākais varbūtības modelis ir taisnas līnijas modelis:
kur
- y = atkarīgais mainīgais
- x = neatkarīgais mainīgais
= nejaušas kļūdas komponents
= pārtvert
= X koeficients
Apsveriet šādu sižetu:
Vienādojums ir pārtveršana. Ja x ir vienāds ar 0, y būs vienāds ar pārtverto punktu, 4,77. ir līnijas slīpums. Tas norāda, kādā proporcijā y mainās, kad x mainās.
Lai aprēķinātu optimālās vērtības , jūs izmantojat metodi, kuras nosaukums ir Parastie vismazākie kvadrāti (OLS) . Šī metode mēģina atrast parametrus, kas samazina kvadrāta kļūdu summu, tas ir, vertikālo attālumu starp prognozētajām y vērtībām un faktiskajām y vērtībām. Atšķirība ir pazīstama kā kļūdas termins .
Pirms jūs novērtējat modeli, jūs varat noteikt, vai lineārā saistība starp y un x ir ticama, uzzīmējot izkliedes diagrammu.
Izkliede
Mēs izmantosim ļoti vienkāršu datu kopu, lai izskaidrotu vienkāršās lineārās regresijas jēdzienu. Mēs importēsim amerikāņu sieviešu vidējo augstumu un svaru. Datu kopa satur 15 novērojumus. Jūs vēlaties izmērīt, vai augstumi ir pozitīvi saistīti ar svariem.
library(ggplot2)path <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/women.csv'df <-read.csv(path)ggplot(df,aes(x=height, y = weight))+geom_point()
Izeja:
Izkliede norāda vispārēju tendenci y palielināties, palielinoties x. Nākamajā solī jūs izmērīsit, cik daudz palielinās par katru papildu.
Vismazāko kvadrātu tāmes
Ar vienkārši OLS regresijas, aprēķins, ir vienkārša. Mērķis nav parādīt atvasinājumu šajā apmācībā. Jūs rakstīsit tikai formulu.
Jūs vēlaties novērtēt:
OLS regresijas mērķis ir samazināt šādu vienādojumu:
kur
paredzamā vērtība.
Risinājums
Ņemiet vērā, ka tas nozīmē x vidējo vērtību
Risinājums
R, lai novērtētu, varat izmantot funkciju cov () un var (),
beta <- cov(df$height, df$weight) / var (df$height)beta
Izeja:
##[1] 3.45
alpha <- mean(df$weight) - beta * mean(df$height)alpha
Izeja:
## [1] -87.51667
Beta koeficients nozīmē, ka katram papildu augstumam svars palielinās par 3,45.
Manuāli novērtēt vienkāršu lineāro vienādojumu nav ideāli. R nodrošina piemērotu funkciju šo parametru novērtēšanai. Drīz jūs redzēsiet šo funkciju. Pirms tam mēs iepazīstināsim, kā ar roku aprēķināt vienkāršu lineārās regresijas modeli. Datu zinātnieka ceļā jūs gandrīz vai nekad nenovērtēsiet vienkāršu lineāru modeli. Lielākajā daļā gadījumu regresijas uzdevumi tiek veikti daudziem aprēķiniem.
Vairāku lineāru regresiju
Regresijas analīzes praktiskākos pielietojumos tiek izmantoti modeļi, kas ir sarežģītāki nekā vienkāršais taisnes modelis. Varbūtības modeli, kas ietver vairāk nekā vienu neatkarīgu mainīgo, sauc par vairākiem regresijas modeļiem . Šī modeļa vispārīgā forma ir:
Matricas apzīmējumā modeli var pārrakstīt:
Atkarīgais mainīgais y tagad ir k neatkarīgu mainīgo funkcija. Koeficienta vērtība .
Mēs īsi iepazīstinām ar pieņēmumu, ko mēs izdarījām par izlases kļūdu OLS:
- Vidējais vienāds ar 0
- Dispersija ir vienāda ar
- Normāls sadalījums
- Nejaušas kļūdas ir neatkarīgas (varbūtības nozīmē)
Jums jāatrisina regresijas koeficientu vektors, kas samazina kļūdu kvadrātā summu starp prognozētajām un faktiskajām y vērtībām.
Slēgtas formas risinājums ir:
ar:
- norāda matricas X transponēšanu
norāda invertējamo matricu
Mēs izmantojam mtcars datu kopu. Jūs jau esat iepazinies ar datu kopu. Mūsu mērķis ir paredzēt jūdzi uz galonu virs funkciju kopuma.
Nepārtraukti mainīgie
Pagaidām jūs izmantosiet tikai nepārtrauktos mainīgos un atstāsit malā kategoriskās pazīmes. Mainīgais am ir binārs mainīgais, iegūstot vērtību 1, ja transmisija ir manuāla, un 0 - automātiskām automašīnām; vs ir arī binārs mainīgais.
library(dplyr)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))glimpse(df)
Izeja:
## Observations: 32## Variables: 6## $ mpg21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19… .## $ disp 160.0, 160.0, 108.0, 258.0, 360.0, 225.0, 360.0, 146.7, 1… ## $ hp 110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180,… ## $ drat 3.90, 3.90, 3.85, 3.08, 3.15, 2.76, 3.21, 3.69, 3.92, 3.9… ## $ wt 2.620, 2.875, 2.320, 3.215, 3.440, 3.460, 3.570, 3.190, 3… ## $ qsec 16.46, 17.02, 18.61, 19.44, 17.02, 20.22, 15.84, 20.00, 2…
Lai aprēķinātu parametrus, varat izmantot funkciju lm (). Šīs funkcijas sintakse ir šāda:
lm(formula, data, subset)Arguments:-formula: The equation you want to estimate-data: The dataset used-subset: Estimate the model on a subset of the dataset
Atcerieties, ka vienādojumam ir šāda forma
R
- Simbolu = aizstāj ar ~
- Katru x aizstāj ar mainīgā nosaukumu
- Ja vēlaties nomest konstanti, formulas beigās pievienojiet -1
Piemērs:
Jūs vēlaties novērtēt indivīdu svaru, pamatojoties uz viņu augumu un ienākumiem. Vienādojums ir
Vienādojums R ir rakstīts šādi:
y ~ X1 + X2 +… + Xn # Ar pārtveršanu
Tātad mūsu piemēram:
- Nosver ~ augstums + ieņēmumi
Jūsu mērķis ir novērtēt jūdzi uz galonu, pamatojoties uz mainīgo lielumu kopumu. Novērtējamais vienādojums ir:
Jūs novērtēsiet savu pirmo lineāro regresiju un saglabāsit rezultātu objektā fit.
model <- mpg~.disp + hp + drat + wtfit <- lm(model, df)fit
Kods Paskaidrojums
- modelis <- mpg ~ . disp + hp + drat + wt: uzglabājiet modeli, lai novērtētu
- lm (modelis, df): Novērtējiet modeli ar datu rāmi df
#### Call:## lm(formula = model, data = df)#### Coefficients:## (Intercept) disp hp drat wt## 16.53357 0.00872 -0.02060 2.01577 -4.38546## qsec## 0.64015
Rezultāts nesniedz pietiekamu informāciju par fit kvalitāti. Izmantojot funkciju Summary (), varat piekļūt sīkākai informācijai, piemēram, koeficientu nozīmībai, brīvības pakāpei un atlikumu formai.
summary(fit)
Izeja:
## return the p-value and coefficient#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5404 -1.6701 -0.4264 1.1320 5.4996#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 16.53357 10.96423 1.508 0.14362## disp 0.00872 0.01119 0.779 0.44281## hp -0.02060 0.01528 -1.348 0.18936## drat 2.01578 1.30946 1.539 0.13579## wt -4.38546 1.24343 -3.527 0.00158 **## qsec 0.64015 0.45934 1.394 0.17523## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.558 on 26 degrees of freedom## Multiple R-squared: 0.8489, Adjusted R-squared: 0.8199## F-statistic: 29.22 on 5 and 26 DF, p-value: 6.892e-10
Secinājums no iepriekš minētās tabulas izejas
- Iepriekš minētā tabula pierāda, ka pastāv spēcīgas negatīvas attiecības starp masas un nobraukumu un pozitīvas attiecības ar dratu.
- Tikai mainīgajam wt ir statistiska ietekme uz mpg. Atcerieties, ka, lai pārbaudītu hipotēzi statistikā, mēs izmantojam:
- H0: Nav statistiskas ietekmes
- H3: Prognozētājam ir nozīmīga ietekme uz y
- Ja p vērtība ir mazāka par 0,05, tas norāda, ka mainīgais ir statistiski nozīmīgs
- Pielāgots R kvadrāts: dispersija izskaidrota ar modeli. Jūsu modelī modelis izskaidroja 82 procentus no y dispersijas. R kvadrāts vienmēr ir no 0 līdz 1. Jo augstāks, jo labāk
Varat palaist ANOVA testu, lai novērtētu katras funkcijas ietekmi uz dispersijām ar funkciju anova ().
anova(fit)
Izeja:
## Analysis of Variance Table#### Response: mpg## Df Sum Sq Mean Sq F value Pr(>F)## disp 1 808.89 808.89 123.6185 2.23e-11 ***## hp 1 33.67 33.67 5.1449 0.031854 *## drat 1 30.15 30.15 4.6073 0.041340 *## wt 1 70.51 70.51 10.7754 0.002933 **## qsec 1 12.71 12.71 1.9422 0.175233## Residuals 26 170.13 6.54## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Parastāks veids, kā novērtēt modeļa veiktspēju, ir atlikuma parādīšana pret dažādiem mērījumiem.
Funkciju plot () varat izmantot, lai parādītu četrus grafikus:
- Atlikumi pret uzstādītajām vērtībām
- Normāls QQ grafiks: teorētiskā kvartile pret standartizētajiem atlikumiem
- Scale-Location: Standartizēto atlikumu kvadrātsaknes
- Atlikumi pret sviru: Sviras pret standartizētajiem atlikumiem
Jūs pievienojat kodu par (mfrow = c (2,2)) pirms plot (fit). Ja nepievienojat šo koda rindiņu, R aicina nospiest komandu Enter, lai parādītu nākamo diagrammu.
par(mfrow=(2,2))
Kods Paskaidrojums
- (mfrow = c (2,2)): atgriež logu ar četriem grafikiem blakus.
- Pirmie 2 saskaita rindu skaitu
- Otrais 2 pievieno kolonnu skaitu.
- Ja rakstāt (mfrow = c (3,2)): jūs izveidosiet 3 rindu 2 kolonnu logu
plot(fit)
Izeja:
Formula lm () atgriež sarakstu ar daudz noderīgas informācijas. Viņiem varat piekļūt ar izveidoto fit objektu, kam seko zīme $ un informācija, kuru vēlaties iegūt.
- koeficienti: "fit $ koeficienti"
- atlikumi: "fit $ atliekas"
- aprīkota vērtība: `fit $ fit.values`
Faktoru regresija
Pēdējā modeļa novērtējumā MPG regresējat tikai uz nepārtrauktiem mainīgajiem. Modelim ir vienkārši pievienot faktora mainīgos. Jūs savam modelim pievienojat mainīgo am. Ir svarīgi pārliecināties, ka mainīgais ir faktora līmenis un nav nepārtraukts.
df <- mtcars % > %mutate(cyl = factor(cyl),vs = factor(vs),am = factor(am),gear = factor(gear),carb = factor(carb))summary(lm(model, df))
Izeja:
#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5087 -1.3584 -0.0948 0.7745 4.6251#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 23.87913 20.06582 1.190 0.2525## cyl6 -2.64870 3.04089 -0.871 0.3975## cyl8 -0.33616 7.15954 -0.047 0.9632## disp 0.03555 0.03190 1.114 0.2827## hp -0.07051 0.03943 -1.788 0.0939 .## drat 1.18283 2.48348 0.476 0.6407## wt -4.52978 2.53875 -1.784 0.0946 .## qsec 0.36784 0.93540 0.393 0.6997## vs1 1.93085 2.87126 0.672 0.5115## am1 1.21212 3.21355 0.377 0.7113## gear4 1.11435 3.79952 0.293 0.7733## gear5 2.52840 3.73636 0.677 0.5089## carb2 -0.97935 2.31797 -0.423 0.6787## carb3 2.99964 4.29355 0.699 0.4955## carb4 1.09142 4.44962 0.245 0.8096## carb6 4.47757 6.38406 0.701 0.4938## carb8 7.25041 8.36057 0.867 0.3995## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.833 on 15 degrees of freedom## Multiple R-squared: 0.8931, Adjusted R-squared: 0.779## F-statistic: 7.83 on 16 and 15 DF, p-value: 0.000124
R kā bāzes grupu izmanto pirmo faktora līmeni. Jums jāsalīdzina otras grupas koeficienti ar bāzes grupu.
Pakāpeniska regresija
Šīs apmācības pēdējā daļa attiecas uz pakāpeniskas regresijas algoritmu. Šī algoritma mērķis ir modeļos pievienot un noņemt potenciālos kandidātus un saglabāt tos, kuriem ir būtiska ietekme uz atkarīgo mainīgo. Šis algoritms ir nozīmīgs, ja datu kopā ir liels prediktoru saraksts. Jums nav manuāli jāpievieno un jānoņem neatkarīgi mainīgie. Pakāpeniskā regresija tiek veidota, lai atlasītu labākos kandidātus, kas atbilst modelim.
Apskatīsim, kā tas darbojas. Mtcars datu kopu ar nepārtrauktajiem mainīgajiem izmantojat tikai pedagoģiskai ilustrācijai. Pirms sākat analīzi, ir lietderīgi noteikt datu variācijas ar korelācijas matricu. GGally bibliotēka ir ggplot2 paplašinājums.
Bibliotēka ietver dažādas funkcijas, lai parādītu kopsavilkuma statistiku, piemēram, visu matricas mainīgo korelāciju un sadalījumu. Mēs izmantosim funkciju ggscatmat, taču, lai iegūtu plašāku informāciju par GGally bibliotēku, varat atsaukties uz vinjeti.
Programmas ggscatmat () pamata sintakse ir:
ggscatmat(df, columns = 1:ncol(df), corMethod = "pearson")arguments:-df: A matrix of continuous variables-columns: Pick up the columns to use in the function. By default, all columns are used-corMethod: Define the function to compute the correlation between variable. By default, the algorithm uses the Pearson formula
Jūs parādāt visu mainīgo korelāciju un izlemjat, kurš būs labākais pakāpeniskās regresijas pirmā posma kandidāts. Starp mainīgajiem un atkarīgo mainīgo mpg pastāv dažas ciešas korelācijas.
library(GGally)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))ggscatmat(df, columns = 1: ncol(df))
Izeja:
Pakāpeniska regresija
Mainīgo lielumu atlase ir svarīga sastāvdaļa modelim. Pakāpeniskā regresija meklēšanas procesu veic automātiski. Lai novērtētu, cik daudz datu kopā ir iespējamo izvēļu, aprēķiniet ar k ir prediktoru skaits. Iespēju daudzums palielinās, palielinoties neatkarīgo mainīgo skaitam. Tāpēc jums ir jāveic automātiska meklēšana.
Jums jāinstalē pakete olsrr no CRAN. Pakete vēl nav pieejama Anaconda. Tādējādi jūs to instalējat tieši no komandrindas:
install.packages("olsrr")
Jūs varat uzzīmēt visas iespēju apakškopas ar atbilstības kritērijiem (ti, R kvadrāts, Pielāgots R kvadrāts, Bajesa kritēriji). Modelis ar viszemākajiem AIC kritērijiem būs galīgais modelis.
library(olsrr)model <- mpg~.fit <- lm(model, df)test <- ols_all_subset(fit)plot(test)
Kods Paskaidrojums
- mpg ~ .: Konstruējiet modeli, lai novērtētu
- lm (modelis, df): palaidiet OLS modeli
- ols_all_subset (fit): Konstruējiet diagrammas ar attiecīgo statistikas informāciju
- diagramma (tests): uzzīmējiet grafikus
Izeja:
Lineārās regresijas modeļos tiek izmantots t-tests, lai novērtētu neatkarīga mainīgā statistisko ietekmi uz atkarīgo mainīgo. Pētnieki nosaka maksimālo slieksni 10 procentu apmērā, un zemākas vērtības norāda uz stingrāku statistisko saikni. Ap šo testu tiek veidota pakāpeniskas regresijas stratēģija, lai pievienotu un noņemtu potenciālos kandidātus. Algoritms darbojas šādi:
- 1. solis: katru prediktoru regresēt uz y atsevišķi. Proti, regresēt x_1 uz y, x_2 uz y līdz x_n. Saglabājiet p vērtību un saglabājiet regresoru ar p vērtību, kas ir zemāka par noteikto slieksni (pēc noklusējuma - 0,1). Prognozētāji, kuru nozīmīgums ir mazāks par slieksni, tiks pievienoti galīgajam modelim. Ja neviena mainīgā p vērtība nav zemāka par ievadīšanas slieksni, algoritms apstājas un jūsu gala modelis ir tikai ar konstanti.
- 2. solis: izmantojiet prediktoru ar zemāko p vērtību un atsevišķi pievienojiet vienu mainīgo. Jūs regresējat nemainīgu, labāko pirmā un trešā mainīgā lieluma prognozētāju. Jūs pakāpeniskajam modelim pievienojat jaunos prognozētājus, kuru vērtība ir zemāka par ievadīšanas slieksni. Ja neviena mainīgā p vērtība nav zemāka par 0,1, algoritms apstājas un jūsu galīgais modelis ir paredzēts tikai ar vienu prognozētāju. Jūs regresējat pakāpenisko modeli, lai pārbaudītu 1. soļa labāko prognozētāju nozīmi. Ja tas ir augstāks par noņemšanas slieksni, jūs to turat pakāpeniskajā modelī. Pretējā gadījumā jūs to izslēdzat.
- 3. darbība: jūs atkārtojat 2. darbību jaunajā labākajā pakāpeniskajā modelī. Algoritms pakāpeniskajam modelim pievieno prediktorus, pamatojoties uz ievadītajām vērtībām, un izslēdz prognozētāju no pakāpeniskā modeļa, ja tas neatbilst izslēgšanas slieksnim.
- Algoritms turpina darboties, līdz nevienu mainīgo nevar pievienot vai izslēgt.
Algoritmu var veikt ar ols_stepwise () funkciju no pakotnes olsrr.
ols_stepwise(fit, pent = 0.1, prem = 0.3, details = FALSE)arguments:
-fit: Model to fit. Need to use `lm()`before to run `ols_stepwise()-pent: Threshold of the p-value used to enter a variable into the stepwise model. By default, 0.1-prem: Threshold of the p-value used to exclude a variable into the stepwise model. By default, 0.3-details: Print the details of each step
Pirms tam mēs parādīsim algoritma darbības. Zemāk ir tabula ar atkarīgajiem un neatkarīgajiem mainīgajiem:
Atkarīgais mainīgais |
Neatkarīgi mainīgie |
---|---|
mpg |
disp |
ZS |
|
drats |
|
wt |
|
qsek |
Sākt
Vispirms algoritms sākas, palaižot modeli katram neatkarīgajam mainīgajam atsevišķi. Tabulā parādīta katra modeļa p vērtība.
## [[1]]## (Intercept) disp## 3.576586e-21 9.380327e-10#### [[2]]## (Intercept) hp## 6.642736e-18 1.787835e-07#### [[3]]## (Intercept) drat## 0.1796390847 0.0000177624#### [[4]]## (Intercept) wt## 8.241799e-19 1.293959e-10#### [[5]## (Intercept) qsec## 0.61385436 0.01708199
Lai ievadītu modeli, algoritms saglabā mainīgo ar zemāko p vērtību. No iepriekš minētās izejas tas ir wt
1. solis
Pirmajā solī algoritms mpg palaiž wt un pārējos mainīgos neatkarīgi.
## [[1]]## (Intercept) wt disp## 4.910746e-16 7.430725e-03 6.361981e-02#### [[2]]## (Intercept) wt hp## 2.565459e-20 1.119647e-06 1.451229e-03#### [[3]]## (Intercept) wt drat## 2.737824e-04 1.589075e-06 3.308544e-01#### [[4]]## (Intercept) wt qsec## 7.650466e-04 2.518948e-11 1.499883e-03
Katrs mainīgais ir potenciāls kandidāts, lai iekļūtu galīgajā modelī. Tomēr algoritms patur tikai mainīgo ar zemāku p vērtību. Izrādās, ka hp ir nedaudz zemāka p vērtība nekā qsec. Tāpēc hp nonāk galīgajā modelī
2. solis
Algoritms atkārto pirmo soli, bet šoreiz gala modelī ar diviem neatkarīgiem mainīgajiem.
## [[1]]## (Intercept) wt hp disp## 1.161936e-16 1.330991e-03 1.097103e-02 9.285070e-01#### [[2]]## (Intercept) wt hp drat## 5.133678e-05 3.642961e-04 1.178415e-03 1.987554e-01#### [[3]]## (Intercept) wt hp qsec## 2.784556e-03 3.217222e-06 2.441762e-01 2.546284e-01
Nevienam no mainīgajiem, kas iekļauti galīgajā modelī, p vērtība nav pietiekami zema. Algoritms šeit apstājas; mums ir galīgais modelis:
#### Call:## lm(formula = mpg ~ wt + hp, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.941 -1.600 -0.182 1.050 5.854#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 37.22727 1.59879 23.285 < 2e-16 ***## wt -3.87783 0.63273 -6.129 1.12e-06 ***## hp -0.03177 0.00903 -3.519 0.00145 **## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.593 on 29 degrees of freedom## Multiple R-squared: 0.8268, Adjusted R-squared: 0.8148## F-statistic: 69.21 on 2 and 29 DF, p-value: 9.109e-12
Rezultātu salīdzināšanai varat izmantot funkciju ols_stepwise ().
stp_s <-ols_stepwise(fit, details=TRUE)
Izeja:
Pēc 2 soļiem algoritms atrod risinājumu un atgriež to pašu rezultātu, kāds mums bija iepriekš.
Beigās jūs varat teikt, ka modeļus izskaidro divi mainīgie un pārtveršana. Jūdze uz galonu negatīvi korelē ar kopējo zirgspēku un svaru
## You are selecting variables based on p value… ## 1 variable(s) added… .## Variable Selection Procedure## Dependent Variable: mpg#### Stepwise Selection: Step 1#### Variable wt Entered#### Model Summary## --------------------------------------------------------------## R 0.868 RMSE 3.046## R-Squared 0.753 Coef. Var 15.161## Adj. R-Squared 0.745 MSE 9.277## Pred R-Squared 0.709 MAE 2.341## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 847.725 1 847.725 91.375 0.0000## Residual 278.322 30 9.277## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.285 1.878 19.858 0.000 33.450 41.120## wt -5.344 0.559 -0.868 -9.559 0.000 -6.486 -4.203## ----------------------------------------------------------------------------------------## 1 variable(s) added… ## Stepwise Selection: Step 2#### Variable hp Entered#### Model Summary## --------------------------------------------------------------## R 0.909 RMSE 2.593## R-Squared 0.827 Coef. Var 12.909## Adj. R-Squared 0.815 MSE 6.726## Pred R-Squared 0.781 MAE 1.901## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 930.999 2 465.500 69.211 0.0000## Residual 195.048 29 6.726## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.227 1.599 23.285 0.000 33.957 40.497## wt -3.878 0.633 -0.630 -6.129 0.000 -5.172 -2.584## hp -0.032 0.009 -0.361 -3.519 0.001 -0.050 -0.013## ----------------------------------------------------------------------------------------## No more variables to be added or removed.
Mašīnmācīšanās
Mašīnmācība kļūst plaši izplatīta datu zinātnieku vidū, un tā tiek izmantota simtiem produktu, kurus izmantojat katru dienu. Viena no pirmajām ML lietojumprogrammām bija surogātpasta filtrs .
Tālāk ir cita mašīnmācīšanās programma
- Nevēlamu surogātpasta ziņojumu identifikācija e-pastā
- Klientu uzvedības segmentēšana mērķtiecīgai reklāmai
- Krāpniecisku kredītkaršu darījumu samazināšana
- Enerģijas izmantošanas optimizēšana mājas un biroja ēkā
- Sejas atpazīšana
Vadīta mācīšanās
In uzraudzītā mācīšanās , apmācību dati, ko barot ar algoritmu ietver etiķeti.
Klasifikācija, iespējams, ir visbiežāk izmantotā uzraudzītā mācību tehnika. Viens no pirmajiem klasifikācijas uzdevumiem, ar ko pētnieki nodarbojās, bija surogātpasta filtrs. Mācību mērķis ir paredzēt, vai e-pasts ir klasificēts kā surogātpasts vai šķiņķis (labs e-pasts). Iekārta pēc apmācības posma var noteikt e-pasta klasi.
Mašīnmācīšanās jomā parasti tiek izmantotas regresijas, lai prognozētu nepārtrauktu vērtību. Regresijas uzdevums var paredzēt atkarīgā mainīgā vērtību, pamatojoties uz neatkarīgo mainīgo kopu (sauktas arī par prediktoriem vai regresoriem). Piemēram, lineāras regresijas var paredzēt akciju cenu, laika prognozi, pārdošanas apjomus un tā tālāk.
Šeit ir saraksts ar dažiem fundamentāliem uzraudzītiem mācīšanās algoritmiem.
- Lineārā regresija
- Loģistiskā regresija
- Tuvākie kaimiņi
- Atbalsta vektoru mašīnu (SVM)
- Lēmumu koki un izlases mežs
- Neironu tīkli
Nepārraudzīta mācīšanās
In nekontrolētas mācīšanās , apmācību dati neatzīmētajā. Sistēma mēģina mācīties bez atsauces. Zemāk ir saraksts ar neuzraudzītiem mācību algoritmiem.
- K-vidējais
- Hierarhiska klasteru analīze
- Gaidījumu maksimizēšana
- Vizualizācija un izmēru samazināšana
- Galveno komponentu analīze
- Kodola PCA
- Lokāli-lineāra iegulšana
Kopsavilkums
Parasto regresiju ar vismazāko kvadrātu var apkopot zemāk esošajā tabulā:
Bibliotēka |
Mērķis |
Funkcija |
Argumenti |
---|---|---|---|
bāze |
Aprēķiniet lineāro regresiju |
lm () |
formula, dati |
bāze |
Apkopojiet modeli |
apkopot () |
der |
bāze |
Exctract koeficienti |
lm () $ koeficients | |
bāze |
Exctract atlikumi |
lm () $ atlikumi | |
bāze |
Izņemt atbilstošo vērtību |
lm () $ aprīkots. vērtības | |
olsrr |
Palaidiet pakāpenisku regresiju |
ols_stepwise () |
fit, pent = 0.1, prem = 0.3, detaļas = FALSE |
Piezīme . Atcerieties, ka kategoriskais mainīgais faktorā ir jāpārveido, lai tas būtu piemērots modelim.