R Vienkārša, vairākkārtēja un pakāpeniska regresija (ar piemēru)

Šajā apmācībā jūs uzzināsiet

Vienkārša lineārā regresija
Vairāku lineāru regresiju
Nepārtraukti mainīgie
Faktoru regresija
Pakāpeniska regresija
Mašīnmācīšanās
Vadīta mācīšanās
Nepārraudzīta mācīšanās

Vienkārša lineārā regresija

Lineārā regresija atbild uz vienkāršu jautājumu: vai jūs varat izmērīt precīzu saistību starp vienu mērķa mainīgo un pareģotāju kopumu?

Vienkāršākais varbūtības modelis ir taisnas līnijas modelis:

kur

y = atkarīgais mainīgais
x = neatkarīgais mainīgais
= nejaušas kļūdas komponents
= pārtvert
= X koeficients

Apsveriet šādu sižetu:

Vienādojums ir pārtveršana. Ja x ir vienāds ar 0, y būs vienāds ar pārtverto punktu, 4,77. ir līnijas slīpums. Tas norāda, kādā proporcijā y mainās, kad x mainās.

Lai aprēķinātu optimālās vērtības , jūs izmantojat metodi, kuras nosaukums ir Parastie vismazākie kvadrāti (OLS) . Šī metode mēģina atrast parametrus, kas samazina kvadrāta kļūdu summu, tas ir, vertikālo attālumu starp prognozētajām y vērtībām un faktiskajām y vērtībām. Atšķirība ir pazīstama kā kļūdas termins .

Pirms jūs novērtējat modeli, jūs varat noteikt, vai lineārā saistība starp y un x ir ticama, uzzīmējot izkliedes diagrammu.

Izkliede

Mēs izmantosim ļoti vienkāršu datu kopu, lai izskaidrotu vienkāršās lineārās regresijas jēdzienu. Mēs importēsim amerikāņu sieviešu vidējo augstumu un svaru. Datu kopa satur 15 novērojumus. Jūs vēlaties izmērīt, vai augstumi ir pozitīvi saistīti ar svariem.

library(ggplot2)path <- 'https://raw.githubusercontent.com/guru99-edu/R-Programming/master/women.csv'df <-read.csv(path)ggplot(df,aes(x=height, y = weight))+geom_point()

Izeja:

Izkliede norāda vispārēju tendenci y palielināties, palielinoties x. Nākamajā solī jūs izmērīsit, cik daudz palielinās par katru papildu.

Vismazāko kvadrātu tāmes

Ar vienkārši OLS regresijas, aprēķins, ir vienkārša. Mērķis nav parādīt atvasinājumu šajā apmācībā. Jūs rakstīsit tikai formulu.

Jūs vēlaties novērtēt:

OLS regresijas mērķis ir samazināt šādu vienādojumu:

kur

paredzamā vērtība.

Risinājums

Ņemiet vērā, ka tas nozīmē x vidējo vērtību

Risinājums

R, lai novērtētu, varat izmantot funkciju cov () un var (),

beta <- cov(df$height, df$weight) / var (df$height)beta

Izeja:

##[1] 3.45

alpha <- mean(df$weight) - beta * mean(df$height)alpha

Izeja:

## [1] -87.51667

Beta koeficients nozīmē, ka katram papildu augstumam svars palielinās par 3,45.

Manuāli novērtēt vienkāršu lineāro vienādojumu nav ideāli. R nodrošina piemērotu funkciju šo parametru novērtēšanai. Drīz jūs redzēsiet šo funkciju. Pirms tam mēs iepazīstināsim, kā ar roku aprēķināt vienkāršu lineārās regresijas modeli. Datu zinātnieka ceļā jūs gandrīz vai nekad nenovērtēsiet vienkāršu lineāru modeli. Lielākajā daļā gadījumu regresijas uzdevumi tiek veikti daudziem aprēķiniem.

Vairāku lineāru regresiju

Regresijas analīzes praktiskākos pielietojumos tiek izmantoti modeļi, kas ir sarežģītāki nekā vienkāršais taisnes modelis. Varbūtības modeli, kas ietver vairāk nekā vienu neatkarīgu mainīgo, sauc par vairākiem regresijas modeļiem . Šī modeļa vispārīgā forma ir:

Matricas apzīmējumā modeli var pārrakstīt:

Atkarīgais mainīgais y tagad ir k neatkarīgu mainīgo funkcija. Koeficienta vērtība .

Mēs īsi iepazīstinām ar pieņēmumu, ko mēs izdarījām par izlases kļūdu OLS:

Vidējais vienāds ar 0
Dispersija ir vienāda ar
Normāls sadalījums
Nejaušas kļūdas ir neatkarīgas (varbūtības nozīmē)

Jums jāatrisina regresijas koeficientu vektors, kas samazina kļūdu kvadrātā summu starp prognozētajām un faktiskajām y vērtībām.

Slēgtas formas risinājums ir:

ar:

norāda matricas X transponēšanu
norāda invertējamo matricu

Mēs izmantojam mtcars datu kopu. Jūs jau esat iepazinies ar datu kopu. Mūsu mērķis ir paredzēt jūdzi uz galonu virs funkciju kopuma.

Nepārtraukti mainīgie

Pagaidām jūs izmantosiet tikai nepārtrauktos mainīgos un atstāsit malā kategoriskās pazīmes. Mainīgais am ir binārs mainīgais, iegūstot vērtību 1, ja transmisija ir manuāla, un 0 - automātiskām automašīnām; vs ir arī binārs mainīgais.

library(dplyr)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))glimpse(df)

Izeja:

## Observations: 32## Variables: 6## $ mpg  21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19… .## $ disp  160.0, 160.0, 108.0, 258.0, 360.0, 225.0, 360.0, 146.7, 1… ## $ hp  110, 110, 93, 110, 175, 105, 245, 62, 95, 123, 123, 180,… ## $ drat  3.90, 3.90, 3.85, 3.08, 3.15, 2.76, 3.21, 3.69, 3.92, 3.9… ## $ wt  2.620, 2.875, 2.320, 3.215, 3.440, 3.460, 3.570, 3.190, 3… ## $ qsec  16.46, 17.02, 18.61, 19.44, 17.02, 20.22, 15.84, 20.00, 2…

Lai aprēķinātu parametrus, varat izmantot funkciju lm (). Šīs funkcijas sintakse ir šāda:

lm(formula, data, subset)Arguments:-formula: The equation you want to estimate-data: The dataset used-subset: Estimate the model on a subset of the dataset

Atcerieties, ka vienādojumam ir šāda forma

Simbolu = aizstāj ar ~
Katru x aizstāj ar mainīgā nosaukumu
Ja vēlaties nomest konstanti, formulas beigās pievienojiet -1

Piemērs:

Jūs vēlaties novērtēt indivīdu svaru, pamatojoties uz viņu augumu un ienākumiem. Vienādojums ir

Vienādojums R ir rakstīts šādi:

y ~ X1 + X2 +… + Xn # Ar pārtveršanu

Tātad mūsu piemēram:

Nosver ~ augstums + ieņēmumi

Jūsu mērķis ir novērtēt jūdzi uz galonu, pamatojoties uz mainīgo lielumu kopumu. Novērtējamais vienādojums ir:

Jūs novērtēsiet savu pirmo lineāro regresiju un saglabāsit rezultātu objektā fit.

model <- mpg~.disp + hp + drat + wtfit <- lm(model, df)fit

Kods Paskaidrojums

modelis <- mpg ~ . disp + hp + drat + wt: uzglabājiet modeli, lai novērtētu
lm (modelis, df): Novērtējiet modeli ar datu rāmi df

#### Call:## lm(formula = model, data = df)#### Coefficients:## (Intercept) disp hp drat wt## 16.53357 0.00872 -0.02060 2.01577 -4.38546## qsec## 0.64015

Rezultāts nesniedz pietiekamu informāciju par fit kvalitāti. Izmantojot funkciju Summary (), varat piekļūt sīkākai informācijai, piemēram, koeficientu nozīmībai, brīvības pakāpei un atlikumu formai.

summary(fit)

Izeja:

## return the p-value and coefficient#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5404 -1.6701 -0.4264 1.1320 5.4996#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 16.53357 10.96423 1.508 0.14362## disp 0.00872 0.01119 0.779 0.44281## hp -0.02060 0.01528 -1.348 0.18936## drat 2.01578 1.30946 1.539 0.13579## wt -4.38546 1.24343 -3.527 0.00158 **## qsec 0.64015 0.45934 1.394 0.17523## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.558 on 26 degrees of freedom## Multiple R-squared: 0.8489, Adjusted R-squared: 0.8199## F-statistic: 29.22 on 5 and 26 DF, p-value: 6.892e-10

Secinājums no iepriekš minētās tabulas izejas

Iepriekš minētā tabula pierāda, ka pastāv spēcīgas negatīvas attiecības starp masas un nobraukumu un pozitīvas attiecības ar dratu.
Tikai mainīgajam wt ir statistiska ietekme uz mpg. Atcerieties, ka, lai pārbaudītu hipotēzi statistikā, mēs izmantojam:
- H0: Nav statistiskas ietekmes
- H3: Prognozētājam ir nozīmīga ietekme uz y
- Ja p vērtība ir mazāka par 0,05, tas norāda, ka mainīgais ir statistiski nozīmīgs
Pielāgots R kvadrāts: dispersija izskaidrota ar modeli. Jūsu modelī modelis izskaidroja 82 procentus no y dispersijas. R kvadrāts vienmēr ir no 0 līdz 1. Jo augstāks, jo labāk

Varat palaist ANOVA testu, lai novērtētu katras funkcijas ietekmi uz dispersijām ar funkciju anova ().

anova(fit)

Izeja:

## Analysis of Variance Table#### Response: mpg## Df Sum Sq Mean Sq F value Pr(>F)## disp 1 808.89 808.89 123.6185 2.23e-11 ***## hp 1 33.67 33.67 5.1449 0.031854 *## drat 1 30.15 30.15 4.6073 0.041340 *## wt 1 70.51 70.51 10.7754 0.002933 **## qsec 1 12.71 12.71 1.9422 0.175233## Residuals 26 170.13 6.54## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Parastāks veids, kā novērtēt modeļa veiktspēju, ir atlikuma parādīšana pret dažādiem mērījumiem.

Funkciju plot () varat izmantot, lai parādītu četrus grafikus:

- Atlikumi pret uzstādītajām vērtībām

- Normāls QQ grafiks: teorētiskā kvartile pret standartizētajiem atlikumiem

- Scale-Location: Standartizēto atlikumu kvadrātsaknes

- Atlikumi pret sviru: Sviras pret standartizētajiem atlikumiem

Jūs pievienojat kodu par (mfrow = c (2,2)) pirms plot (fit). Ja nepievienojat šo koda rindiņu, R aicina nospiest komandu Enter, lai parādītu nākamo diagrammu.

par(mfrow=(2,2))

Kods Paskaidrojums

(mfrow = c (2,2)): atgriež logu ar četriem grafikiem blakus.
Pirmie 2 saskaita rindu skaitu
Otrais 2 pievieno kolonnu skaitu.
Ja rakstāt (mfrow = c (3,2)): jūs izveidosiet 3 rindu 2 kolonnu logu

plot(fit)

Izeja:

Formula lm () atgriež sarakstu ar daudz noderīgas informācijas. Viņiem varat piekļūt ar izveidoto fit objektu, kam seko zīme $ un informācija, kuru vēlaties iegūt.

- koeficienti: "fit $ koeficienti"

- atlikumi: "fit $ atliekas"

- aprīkota vērtība: `fit $ fit.values`

Faktoru regresija

Pēdējā modeļa novērtējumā MPG regresējat tikai uz nepārtrauktiem mainīgajiem. Modelim ir vienkārši pievienot faktora mainīgos. Jūs savam modelim pievienojat mainīgo am. Ir svarīgi pārliecināties, ka mainīgais ir faktora līmenis un nav nepārtraukts.

df <- mtcars % > %mutate(cyl = factor(cyl),vs = factor(vs),am = factor(am),gear = factor(gear),carb = factor(carb))summary(lm(model, df))

Izeja:

#### Call:## lm(formula = model, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.5087 -1.3584 -0.0948 0.7745 4.6251#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 23.87913 20.06582 1.190 0.2525## cyl6 -2.64870 3.04089 -0.871 0.3975## cyl8 -0.33616 7.15954 -0.047 0.9632## disp 0.03555 0.03190 1.114 0.2827## hp -0.07051 0.03943 -1.788 0.0939 .## drat 1.18283 2.48348 0.476 0.6407## wt -4.52978 2.53875 -1.784 0.0946 .## qsec 0.36784 0.93540 0.393 0.6997## vs1 1.93085 2.87126 0.672 0.5115## am1 1.21212 3.21355 0.377 0.7113## gear4 1.11435 3.79952 0.293 0.7733## gear5 2.52840 3.73636 0.677 0.5089## carb2 -0.97935 2.31797 -0.423 0.6787## carb3 2.99964 4.29355 0.699 0.4955## carb4 1.09142 4.44962 0.245 0.8096## carb6 4.47757 6.38406 0.701 0.4938## carb8 7.25041 8.36057 0.867 0.3995## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.833 on 15 degrees of freedom## Multiple R-squared: 0.8931, Adjusted R-squared: 0.779## F-statistic: 7.83 on 16 and 15 DF, p-value: 0.000124

R kā bāzes grupu izmanto pirmo faktora līmeni. Jums jāsalīdzina otras grupas koeficienti ar bāzes grupu.

Pakāpeniska regresija

Šīs apmācības pēdējā daļa attiecas uz pakāpeniskas regresijas algoritmu. Šī algoritma mērķis ir modeļos pievienot un noņemt potenciālos kandidātus un saglabāt tos, kuriem ir būtiska ietekme uz atkarīgo mainīgo. Šis algoritms ir nozīmīgs, ja datu kopā ir liels prediktoru saraksts. Jums nav manuāli jāpievieno un jānoņem neatkarīgi mainīgie. Pakāpeniskā regresija tiek veidota, lai atlasītu labākos kandidātus, kas atbilst modelim.

Apskatīsim, kā tas darbojas. Mtcars datu kopu ar nepārtrauktajiem mainīgajiem izmantojat tikai pedagoģiskai ilustrācijai. Pirms sākat analīzi, ir lietderīgi noteikt datu variācijas ar korelācijas matricu. GGally bibliotēka ir ggplot2 paplašinājums.

Bibliotēka ietver dažādas funkcijas, lai parādītu kopsavilkuma statistiku, piemēram, visu matricas mainīgo korelāciju un sadalījumu. Mēs izmantosim funkciju ggscatmat, taču, lai iegūtu plašāku informāciju par GGally bibliotēku, varat atsaukties uz vinjeti.

Programmas ggscatmat () pamata sintakse ir:

ggscatmat(df, columns = 1:ncol(df), corMethod = "pearson")arguments:-df: A matrix of continuous variables-columns: Pick up the columns to use in the function. By default, all columns are used-corMethod: Define the function to compute the correlation between variable. By default, the algorithm uses the Pearson formula

Jūs parādāt visu mainīgo korelāciju un izlemjat, kurš būs labākais pakāpeniskās regresijas pirmā posma kandidāts. Starp mainīgajiem un atkarīgo mainīgo mpg pastāv dažas ciešas korelācijas.

library(GGally)df <- mtcars % > %select(-c(am, vs, cyl, gear, carb))ggscatmat(df, columns = 1: ncol(df))

Izeja:

Pakāpeniska regresija

Mainīgo lielumu atlase ir svarīga sastāvdaļa modelim. Pakāpeniskā regresija meklēšanas procesu veic automātiski. Lai novērtētu, cik daudz datu kopā ir iespējamo izvēļu, aprēķiniet ar k ir prediktoru skaits. Iespēju daudzums palielinās, palielinoties neatkarīgo mainīgo skaitam. Tāpēc jums ir jāveic automātiska meklēšana.

Jums jāinstalē pakete olsrr no CRAN. Pakete vēl nav pieejama Anaconda. Tādējādi jūs to instalējat tieši no komandrindas:

install.packages("olsrr")

Jūs varat uzzīmēt visas iespēju apakškopas ar atbilstības kritērijiem (ti, R kvadrāts, Pielāgots R kvadrāts, Bajesa kritēriji). Modelis ar viszemākajiem AIC kritērijiem būs galīgais modelis.

library(olsrr)model <- mpg~.fit <- lm(model, df)test <- ols_all_subset(fit)plot(test)

Kods Paskaidrojums

mpg ~ .: Konstruējiet modeli, lai novērtētu
lm (modelis, df): palaidiet OLS modeli
ols_all_subset (fit): Konstruējiet diagrammas ar attiecīgo statistikas informāciju
diagramma (tests): uzzīmējiet grafikus

Izeja:

Lineārās regresijas modeļos tiek izmantots t-tests, lai novērtētu neatkarīga mainīgā statistisko ietekmi uz atkarīgo mainīgo. Pētnieki nosaka maksimālo slieksni 10 procentu apmērā, un zemākas vērtības norāda uz stingrāku statistisko saikni. Ap šo testu tiek veidota pakāpeniskas regresijas stratēģija, lai pievienotu un noņemtu potenciālos kandidātus. Algoritms darbojas šādi:

1. solis: katru prediktoru regresēt uz y atsevišķi. Proti, regresēt x_1 uz y, x_2 uz y līdz x_n. Saglabājiet p vērtību un saglabājiet regresoru ar p vērtību, kas ir zemāka par noteikto slieksni (pēc noklusējuma - 0,1). Prognozētāji, kuru nozīmīgums ir mazāks par slieksni, tiks pievienoti galīgajam modelim. Ja neviena mainīgā p vērtība nav zemāka par ievadīšanas slieksni, algoritms apstājas un jūsu gala modelis ir tikai ar konstanti.
2. solis: izmantojiet prediktoru ar zemāko p vērtību un atsevišķi pievienojiet vienu mainīgo. Jūs regresējat nemainīgu, labāko pirmā un trešā mainīgā lieluma prognozētāju. Jūs pakāpeniskajam modelim pievienojat jaunos prognozētājus, kuru vērtība ir zemāka par ievadīšanas slieksni. Ja neviena mainīgā p vērtība nav zemāka par 0,1, algoritms apstājas un jūsu galīgais modelis ir paredzēts tikai ar vienu prognozētāju. Jūs regresējat pakāpenisko modeli, lai pārbaudītu 1. soļa labāko prognozētāju nozīmi. Ja tas ir augstāks par noņemšanas slieksni, jūs to turat pakāpeniskajā modelī. Pretējā gadījumā jūs to izslēdzat.
3. darbība: jūs atkārtojat 2. darbību jaunajā labākajā pakāpeniskajā modelī. Algoritms pakāpeniskajam modelim pievieno prediktorus, pamatojoties uz ievadītajām vērtībām, un izslēdz prognozētāju no pakāpeniskā modeļa, ja tas neatbilst izslēgšanas slieksnim.
Algoritms turpina darboties, līdz nevienu mainīgo nevar pievienot vai izslēgt.

Algoritmu var veikt ar ols_stepwise () funkciju no pakotnes olsrr.

ols_stepwise(fit, pent = 0.1, prem = 0.3, details = FALSE)

arguments:

-fit: Model to fit. Need to use `lm()`before to run `ols_stepwise()-pent: Threshold of the p-value used to enter a variable into the stepwise model. By default, 0.1-prem: Threshold of the p-value used to exclude a variable into the stepwise model. By default, 0.3-details: Print the details of each step

Pirms tam mēs parādīsim algoritma darbības. Zemāk ir tabula ar atkarīgajiem un neatkarīgajiem mainīgajiem:

Atkarīgais mainīgais	Neatkarīgi mainīgie
mpg	disp
	ZS
	drats
	wt
	qsek

Sākt

Vispirms algoritms sākas, palaižot modeli katram neatkarīgajam mainīgajam atsevišķi. Tabulā parādīta katra modeļa p vērtība.

## [[1]]## (Intercept) disp## 3.576586e-21 9.380327e-10#### [[2]]## (Intercept) hp## 6.642736e-18 1.787835e-07#### [[3]]## (Intercept) drat## 0.1796390847 0.0000177624#### [[4]]## (Intercept) wt## 8.241799e-19 1.293959e-10#### [[5]## (Intercept) qsec## 0.61385436 0.01708199

Lai ievadītu modeli, algoritms saglabā mainīgo ar zemāko p vērtību. No iepriekš minētās izejas tas ir wt

1. solis

Pirmajā solī algoritms mpg palaiž wt un pārējos mainīgos neatkarīgi.

## [[1]]## (Intercept) wt disp## 4.910746e-16 7.430725e-03 6.361981e-02#### [[2]]## (Intercept) wt hp## 2.565459e-20 1.119647e-06 1.451229e-03#### [[3]]## (Intercept) wt drat## 2.737824e-04 1.589075e-06 3.308544e-01#### [[4]]## (Intercept) wt qsec## 7.650466e-04 2.518948e-11 1.499883e-03

Katrs mainīgais ir potenciāls kandidāts, lai iekļūtu galīgajā modelī. Tomēr algoritms patur tikai mainīgo ar zemāku p vērtību. Izrādās, ka hp ir nedaudz zemāka p vērtība nekā qsec. Tāpēc hp nonāk galīgajā modelī

2. solis

Algoritms atkārto pirmo soli, bet šoreiz gala modelī ar diviem neatkarīgiem mainīgajiem.

## [[1]]## (Intercept) wt hp disp## 1.161936e-16 1.330991e-03 1.097103e-02 9.285070e-01#### [[2]]## (Intercept) wt hp drat## 5.133678e-05 3.642961e-04 1.178415e-03 1.987554e-01#### [[3]]## (Intercept) wt hp qsec## 2.784556e-03 3.217222e-06 2.441762e-01 2.546284e-01

Nevienam no mainīgajiem, kas iekļauti galīgajā modelī, p vērtība nav pietiekami zema. Algoritms šeit apstājas; mums ir galīgais modelis:

#### Call:## lm(formula = mpg ~ wt + hp, data = df)#### Residuals:## Min 1Q Median 3Q Max## -3.941 -1.600 -0.182 1.050 5.854#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 37.22727 1.59879 23.285 < 2e-16 ***## wt -3.87783 0.63273 -6.129 1.12e-06 ***## hp -0.03177 0.00903 -3.519 0.00145 **## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 2.593 on 29 degrees of freedom## Multiple R-squared: 0.8268, Adjusted R-squared: 0.8148## F-statistic: 69.21 on 2 and 29 DF, p-value: 9.109e-12

Rezultātu salīdzināšanai varat izmantot funkciju ols_stepwise ().

stp_s <-ols_stepwise(fit, details=TRUE)

Izeja:

Pēc 2 soļiem algoritms atrod risinājumu un atgriež to pašu rezultātu, kāds mums bija iepriekš.

Beigās jūs varat teikt, ka modeļus izskaidro divi mainīgie un pārtveršana. Jūdze uz galonu negatīvi korelē ar kopējo zirgspēku un svaru

## You are selecting variables based on p value… ## 1 variable(s) added… .## Variable Selection Procedure## Dependent Variable: mpg#### Stepwise Selection: Step 1#### Variable wt Entered#### Model Summary## --------------------------------------------------------------## R 0.868 RMSE 3.046## R-Squared 0.753 Coef. Var 15.161## Adj. R-Squared 0.745 MSE 9.277## Pred R-Squared 0.709 MAE 2.341## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 847.725 1 847.725 91.375 0.0000## Residual 278.322 30 9.277## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.285 1.878 19.858 0.000 33.450 41.120## wt -5.344 0.559 -0.868 -9.559 0.000 -6.486 -4.203## ----------------------------------------------------------------------------------------## 1 variable(s) added… ## Stepwise Selection: Step 2#### Variable hp Entered#### Model Summary## --------------------------------------------------------------## R 0.909 RMSE 2.593## R-Squared 0.827 Coef. Var 12.909## Adj. R-Squared 0.815 MSE 6.726## Pred R-Squared 0.781 MAE 1.901## --------------------------------------------------------------## RMSE: Root Mean Square Error## MSE: Mean Square Error## MAE: Mean Absolute Error## ANOVA## --------------------------------------------------------------------## Sum of## Squares DF Mean Square F Sig.## --------------------------------------------------------------------## Regression 930.999 2 465.500 69.211 0.0000## Residual 195.048 29 6.726## Total 1126.047 31## --------------------------------------------------------------------#### Parameter Estimates## ----------------------------------------------------------------------------------------## model Beta Std. Error Std. Beta t Sig lower upper## ----------------------------------------------------------------------------------------## (Intercept) 37.227 1.599 23.285 0.000 33.957 40.497## wt -3.878 0.633 -0.630 -6.129 0.000 -5.172 -2.584## hp -0.032 0.009 -0.361 -3.519 0.001 -0.050 -0.013## ----------------------------------------------------------------------------------------## No more variables to be added or removed.

Mašīnmācīšanās

Mašīnmācība kļūst plaši izplatīta datu zinātnieku vidū, un tā tiek izmantota simtiem produktu, kurus izmantojat katru dienu. Viena no pirmajām ML lietojumprogrammām bija surogātpasta filtrs .

Tālāk ir cita mašīnmācīšanās programma

Nevēlamu surogātpasta ziņojumu identifikācija e-pastā
Klientu uzvedības segmentēšana mērķtiecīgai reklāmai
Krāpniecisku kredītkaršu darījumu samazināšana
Enerģijas izmantošanas optimizēšana mājas un biroja ēkā
Sejas atpazīšana

Vadīta mācīšanās

In uzraudzītā mācīšanās , apmācību dati, ko barot ar algoritmu ietver etiķeti.

Klasifikācija, iespējams, ir visbiežāk izmantotā uzraudzītā mācību tehnika. Viens no pirmajiem klasifikācijas uzdevumiem, ar ko pētnieki nodarbojās, bija surogātpasta filtrs. Mācību mērķis ir paredzēt, vai e-pasts ir klasificēts kā surogātpasts vai šķiņķis (labs e-pasts). Iekārta pēc apmācības posma var noteikt e-pasta klasi.

Mašīnmācīšanās jomā parasti tiek izmantotas regresijas, lai prognozētu nepārtrauktu vērtību. Regresijas uzdevums var paredzēt atkarīgā mainīgā vērtību, pamatojoties uz neatkarīgo mainīgo kopu (sauktas arī par prediktoriem vai regresoriem). Piemēram, lineāras regresijas var paredzēt akciju cenu, laika prognozi, pārdošanas apjomus un tā tālāk.

Šeit ir saraksts ar dažiem fundamentāliem uzraudzītiem mācīšanās algoritmiem.

Lineārā regresija
Loģistiskā regresija
Tuvākie kaimiņi
Atbalsta vektoru mašīnu (SVM)
Lēmumu koki un izlases mežs
Neironu tīkli

Nepārraudzīta mācīšanās

In nekontrolētas mācīšanās , apmācību dati neatzīmētajā. Sistēma mēģina mācīties bez atsauces. Zemāk ir saraksts ar neuzraudzītiem mācību algoritmiem.

K-vidējais
Hierarhiska klasteru analīze
Gaidījumu maksimizēšana
Vizualizācija un izmēru samazināšana
Galveno komponentu analīze
Kodola PCA
Lokāli-lineāra iegulšana

Kopsavilkums

Parasto regresiju ar vismazāko kvadrātu var apkopot zemāk esošajā tabulā:

Bibliotēka	Mērķis	Funkcija	Argumenti
bāze	Aprēķiniet lineāro regresiju	lm ()	formula, dati
bāze	Apkopojiet modeli	apkopot ()	der
bāze	Exctract koeficienti	lm () $ koeficients
bāze	Exctract atlikumi	lm () $ atlikumi
bāze	Izņemt atbilstošo vērtību	lm () $ aprīkots. vērtības
olsrr	Palaidiet pakāpenisku regresiju	ols_stepwise ()	fit, pent = 0.1, prem = 0.3, detaļas = FALSE

Piezīme . Atcerieties, ka kategoriskais mainīgais faktorā ir jāpārveido, lai tas būtu piemērots modelim.

R Vienkārša, vairākkārtēja un pakāpeniska regresija (ar piemēru)

Satura rādītājs:

Vienkārša lineārā regresija

Izkliede

Vismazāko kvadrātu tāmes

Vairāku lineāru regresiju

Nepārtraukti mainīgie

Faktoru regresija

Pakāpeniska regresija

Pakāpeniska regresija

Mašīnmācīšanās

Vadīta mācīšanās

Nepārraudzīta mācīšanās

Kopsavilkums

Pārbaudiet, vai elements pastāv - CSS-triki

Pārbaudiet, vai notikums ir aktivizēts vai vietējais - CSS-triki

Pārbaudiet, vai jQuery ir ielādēts CSS-triki

Notīrīt faila ievadi - CSS-triki

Notīrīt noklusējuma meklēšanas virkni fokusā CSS-triki

Hash tabula datu struktūrā: Python piemērs

BFS vs DFS: ziniet atšķirību

18 populārākie algoritmu intervijas jautājumi un amp; Atbildes

13 labākais Android emulators 2021. gadā (Windows, Mac)

21 LABĀKAIS Android pārlūks 2021. gadā

Str-aizstāt funkcija - CSS-triki

Svītrainais gradients Mixin CSS-triki

Tonēšanas un nokrāsas funkcijas CSS-triki

Izmantojiet Sass mainīgo atlasītājam CSS-triki

Skatu portfeļa tipogrāfija ar minimālo un maksimālo izmēru CSS-triki