Faktors R: kategoriskais mainīgais & Nepārtraukti mainīgie

Satura rādītājs:

Anonim

Kas ir faktors R?

Faktors R ir mainīgais lielums, ko izmanto datu kategorizēšanai un glabāšanai, ar ierobežotu skaitu dažādu vērtību. Tas uzglabā datus kā veselu skaitļu vērtību vektoru. Faktors R ir pazīstams arī kā kategorisks mainīgais, kas kā virknes, tā veselu skaitļu datu vērtības saglabā kā līmeņus. Faktors galvenokārt tiek izmantots statistiskajā modelēšanā un izpētes datu analīzē ar R.

Datu kopā mēs varam atšķirt divu veidu mainīgos: kategoriskos un nepārtrauktos .

  • Aprakstošajā statistikā par kategoriskajiem mainīgajiem lielumiem R vērtība ir ierobežota un parasti balstās uz noteiktu ierobežotu grupu. Piemēram, kategorisks mainīgais lielums R var būt valstis, gads, dzimums, nodarbošanās.
  • Tomēr nepārtraukts mainīgais var ņemt jebkuras vērtības, sākot no veselā skaitļa līdz decimāldaļai. Piemēram, mums var būt ieņēmumi, akcijas cena utt.

Kategoriskie mainīgie

Kategoriskie mainīgie lielumos R tiek saglabāti faktorā. Pārbaudīsim zemāk redzamo kodu, lai rakstzīmju mainīgo pārveidotu par faktora mainīgo R. Rakstzīmes mašīnmācīšanās algoritmā netiek atbalstītas, un vienīgais veids ir virknes pārveidošana par veselu skaitli.

Sintakse

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Argumenti:

  • x : kategorisko datu vektors R. Jābūt virknei vai veselam skaitlim, nevis decimāldaļai.
  • Līmeņi : iespējamo vērtību vektors, ko iegūst x. Šis arguments nav obligāts. Noklusējuma vērtība ir unikāls vektora x vienumu saraksts.
  • Etiķetes : Pievienojiet etiķeti x kategoriskajiem datiem R. Piemēram, 1 var lietot etiķeti "vīrietis", bet 0 - etiķeti "sieviete".
  • sakārtots : nosakiet, vai līmeņi jāpasaka kategoriskajos datos R

Piemērs:

Izveidosim faktoru datu rāmi.

# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)

Izeja:

## [1] "character"## [1] "factor"

Veicot mašīnmācīšanās uzdevumu, ir svarīgi pārveidot virkni par faktora mainīgo R.

Kategorisko mainīgo R var iedalīt nominālajā kategoriskajā mainīgajā un kārtējā kategoriskajā mainīgajā .

Nominālais kategoriskais mainīgais

Kategoriskajam mainīgajam ir vairākas vērtības, taču secībai nav nozīmes. Piemēram, vīrietis vai sieviete. Kategoriskajiem R mainīgajiem lielumiem nav secības.

# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color

Izeja:

## [1] blue red green white black yellow## Levels: black blue green red white yellow

No factor_color mēs nevaram noteikt nevienu secību.

Parastais kategoriskais mainīgais

Parastajiem kategoriskajiem mainīgajiem ir dabiska kārtība. Mēs varam norādīt secību, sākot no zemākās līdz augstākajai ar pasūtījumu = TRUE un augstāko līdz zemāko ar pasūtījumu = FALSE.

Piemērs:

Mēs varam izmantot kopsavilkumu, lai saskaitītu katra faktora mainīgā lieluma vērtības R.

# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day

Izeja:

## [1] evening morning afternoon middaymidnight evening 

Piemērs:

## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)

Izeja:

## morning midday afternoon evening midnight## 1 1 1 2 1

R pasūtīja līmeni no “rīta” līdz “pusnaktij”, kā norādīts līmeņu iekavās.

Nepārtraukti mainīgie

Nepārtrauktās klases mainīgie ir noklusējuma vērtība R. Tie tiek saglabāti kā cipari vai vesels skaitlis. Mēs to varam redzēt no zemāk esošās datu kopas. mtcars ir iebūvēta datu kopa. Tas apkopo informāciju par dažādiem automašīnu tipiem. Mēs varam to importēt, izmantojot mtcars un pārbaudot mainīgā mpg klasi, jūdze uz galonu. Tas atgriež skaitlisko vērtību, norādot nepārtrauktu mainīgo.

dataset <- mtcarsclass(dataset$mpg)

Rezultāts

## [1] "numeric"