Kas ir R programmatūra?
R ir programmēšanas valoda un bezmaksas programmatūra, kuru 1993. gadā izstrādājuši Ross Ihaka un Roberts Džentlemans. R rīcībā ir plašs statistikas un grafisko metožu katalogs. Tas ietver mašīnmācīšanās algoritmus, lineāro regresiju, laika rindas, statistikas secinājumus, lai nosauktu tikai dažus. Lielākā daļa R bibliotēku ir rakstītas R, bet lieliem skaitļošanas uzdevumiem priekšroka dodama C, C ++ un Fortran kodiem.
R ne tikai ir uzticējis akadēmiķis, bet arī daudzi lieli uzņēmumi izmanto R programmēšanas valodu, tostarp Uber, Google, Airbnb, Facebook un tā tālāk.
Datu analīze ar R tiek veikta virknē darbību; programmēšana, pārveidošana, atklāšana, modelēšana un rezultātu paziņošana
- Programma : R ir skaidrs un pieejams programmēšanas rīks
- Pārveidot : R veido bibliotēku kolekcija, kas īpaši paredzēta datu zinātnei
- Atklājiet : izpētiet datus, precizējiet hipotēzi un analizējiet tos
- Modelis : R nodrošina plašu rīku klāstu, lai tvertu pareizo modeli jūsu datiem
- Sazināties : integrējiet kodus, grafikus un izvadus pārskatā ar R Markdown vai izveidojiet Shiny lietotnes, lai koplietotu ar pasauli
Šajā ievada apmācībā jūs uzzināsiet R
- Kāpēc lieto R?
- R pēc nozares
- R pakete
- Sazinieties ar R
- Kāpēc izmantot R?
- Vai jums vajadzētu izvēlēties R?
- Vai R ir grūti?
Kāpēc lieto R?
- Statistikas secinājums
- Datu analīze
- Mašīnmācīšanās algoritms
R pēc nozares
Ja mēs sadalām R izmantošanu nozarē, mēs redzam, ka akadēmiķi ir pirmajā vietā. R ir valoda, kurā veikt statistiku. R ir pirmā izvēle veselības aprūpes nozarē, kam seko valdība un konsultācijas.
R pakete
Galvenie R izmantošanas veidi ir un vienmēr būs statistika, vizualizācija un mašīnmācīšanās. Zemāk redzamajā attēlā parādīts, kura R pakete ir saņēmusi visvairāk jautājumu Stack Overflow. Pirmajā desmitniekā lielākā daļa no tām ir saistītas ar datu zinātnieka darbplūsmu: datu sagatavošanu un rezultātu paziņošanu.
Visas R bibliotēkas, gandrīz 12 tūkst., Tiek glabātas CRAN. CRAN ir bezmaksas un atvērts avots. Varat lejupielādēt un izmantot daudzas bibliotēkas, lai veiktu mašīnmācīšanos vai laika rindu analīzi.
Sazinieties ar R
R ir vairāki veidi, kā prezentēt un koplietot darbu, izmantojot iezīmēšanas dokumentu vai spīdīgu lietotni. Visu var mitināt Rpub, GitHub vai uzņēmuma vietnē.
Zemāk ir sniegts Rpub rīkotas prezentācijas piemērs
Rstudio pieņem atzīmi, lai uzrakstītu dokumentu. Dokumentus var eksportēt dažādos formātos:
- Dokuments:
- HTML
- PDF / latekss
- Vārds
- Prezentācija
- HTML
- PDF starotājs
Rstudio ir lielisks rīks, lai viegli izveidotu lietotni. Tālāk ir sniegts lietotnes piemērs ar Pasaules Bankas datiem.
Kāpēc izmantot R?
Datu zinātne veido veidu, kā uzņēmumi vada savu biznesu. Neapšaubāmi, turēšanās tālāk no mākslīgā intelekta un mašīnas novedīs pie uzņēmuma neveiksmes. Lielais jautājums ir tas, kuru rīku / valodu jums vajadzētu izmantot?
Tie ir daudz rīku, kas pieejami tirgū, lai veiktu datu analīzi. Jaunas valodas apguve prasa ieguldīt laiku. Zemāk redzamajā attēlā attēlota mācīšanās līkne salīdzinājumā ar biznesa iespējām, ko piedāvā valoda. Negatīvās attiecības nozīmē, ka nav bezmaksas pusdienu. Ja vēlaties sniegt vislabāko ieskatu no datiem, jums jāpavada zināms laiks, apgūstot atbilstošo rīku, kas ir R.
Diagrammas augšējā kreisajā stūrī varat redzēt Excel un PowerBI. Šos divus rīkus ir viegli iemācīties, taču tie nepiedāvā izcilas uzņēmējdarbības iespējas, īpaši modelēšanas ziņā. Pa vidu var redzēt Python un SAS. SAS ir īpašs rīks statistikas analīzes veikšanai biznesam, taču tas nav bezmaksas. SAS ir klikšķa un palaist programmatūra. Python tomēr ir valoda ar vienmuļu mācīšanās līkni. Python ir fantastisks rīks mašīnmācīšanās un AI ieviešanai, taču tam nav komunikācijas funkciju. Ar identisku mācīšanās līkni R ir labs kompromiss starp ieviešanu un datu analīzi.
Runājot par datu vizualizāciju (DataViz), jūs, iespējams, dzirdējāt par Tableau. Tableau, bez šaubām, ir lielisks rīks, lai atklātu modeļus, izmantojot diagrammas un diagrammas. Turklāt Tableau mācīšanās nav laikietilpīga. Viena liela datu vizualizācijas problēma ir tā, ka jūs, iespējams, nekad neatradīsit modeli vai vienkārši izveidosiet daudz bezjēdzīgu diagrammu. Tableau ir labs rīks ātrai datu vai biznesa informācijas vizualizēšanai. Runājot par statistiku un lēmumu pieņemšanas rīku, R ir piemērotāks.
Stack Overflow ir liela kopiena programmēšanas valodām. Ja jums ir kodēšanas problēma vai jums ir jāsaprot modelis, šeit ir pieejama kaudzes pārpilde. Gada laikā jautājumu skatījumu procentuālais daudzums R ir strauji pieaudzis, salīdzinot ar citām valodām. Šī tendence, protams, ir cieši saistīta ar strauji augošo datu zinātnes vecumu, taču tā atspoguļo R valodas pieprasījumu pēc datu zinātnes.
Datu zinātnē savstarpēji konkurē divi rīki. R un Python, iespējams, ir programmēšanas valoda, kas nosaka datu zinātni.
Vai jums vajadzētu izvēlēties R?
Datu zinātnieks var izmantot divus izcilus rīkus: R un Python. Jums var nebūt laika apgūt abus, it īpaši, ja sākat apgūt datu zinātni. Apgūst statistisko modelēšanu un algoritmuir daudz svarīgāk nekā iemācīties programmēšanas valodu. Programmēšanas valoda ir rīks, lai aprēķinātu un paziņotu jūsu atklājumu. Datu zinātnē vissvarīgākais uzdevums ir veids, kā jūs apstrādājat datus: importēšana, tīrīšana, sagatavošana, funkciju veidošana, funkciju izvēle. Tam vajadzētu būt jūsu galvenajam fokusam. Ja jūs mēģināt iemācīties R un Python vienlaicīgi bez stabila statistikas fona, tas ir vienkārši stulbi. Datu zinātnieki nav programmētāji. Viņu uzdevums ir izprast datus, manipulēt ar tiem un atklāt vislabāko pieeju. Ja jūs domājat par to, kuru valodu mācīties, redzēsim, kura valoda jums ir vispiemērotākā.
Galvenā datu zinātnes auditorija ir profesionāla uzņēmējdarbība. Biznesā viena liela nozīme ir komunikācija. Saziņai ir daudz veidu: pārskats, tīmekļa lietotne, informācijas panelis. Jums ir nepieciešams rīks, kas to visu dara kopā.
Vai R ir grūti?
Pirms gadiem R bija grūti apgūstama valoda. Valoda bija mulsinoša un nebija tik strukturēta kā citi programmēšanas rīki. Lai pārvarētu šo galveno problēmu, Hadlijs Vikhems izstrādāja paku kolekciju ar nosaukumu tidyverse. Spēles likums mainījās uz labāko. Datu manipulācijas kļūst triviālas un intuitīvas. Grafika izveide vairs nebija tik grūta.
Vislabākos mašīnmācīšanās algoritmus var ieviest ar R. Paketes, piemēram, Keras un TensorFlow, ļauj izveidot augstas klases mašīnmācīšanās tehniku. R ir arī pakete Xgboost veikšanai, kas ir viens no labākajiem Kaggle sacensību algoritmiem.
R var sazināties ar citu valodu. R ir iespējams izsaukt Python, Java, C ++. Lielo datu pasaule ir pieejama arī R. Jūs varat savienot R ar dažādām datu bāzēm, piemēram, Spark vai Hadoop.
Visbeidzot, R ir attīstījies un ļāva veikt paralēlo darbību, lai paātrinātu aprēķinu. Patiesībā R tika kritizēts par to, ka vienlaikus izmanto tikai vienu procesoru. Paralēlā pakete ļauj veikt uzdevumus dažādos mašīnas kodolos.
Kopsavilkums
Īsumā R ir lielisks rīks datu izpētei un izpētei. Izstrādāta analīze, piemēram, kopu veidošana, korelācija un datu samazināšana, tiek veikta ar R. Šī ir vissvarīgākā daļa, bez labas tehnikas inženierijas un modeļa mašīnmācīšanās izvietošana nedos nozīmīgus rezultātus.