Šajā apmācībā jūs uzzināsiet -
- NLTK instalēšana sistēmā Windows
- Python instalēšana sistēmā Windows
- NLTK instalēšana Mac / Linux
- NLTK instalēšana, izmantojot Anaconda
- NLTK datu kopa
- Kā lejupielādēt visas NLTK paketes
- NLP skripta palaišana
- Kā palaist NLTK skriptu
NLTK instalēšana sistēmā Windows
Šajā daļā mēs uzzināsim, kā iestatīt NLTK, izmantojot termināli (komandu uzvedne logos).
Tālāk sniegtie norādījumi ir balstīti uz pieņēmumu, ka jums nav instalēts pitons. Tātad, pirmais solis ir python instalēšana.
Python instalēšana sistēmā Windows:
1. solis) Iet uz saiti https://www.python.org/downloads/ , un izvēlieties jaunāko versiju logiem.
Piezīme . Ja nevēlaties lejupielādēt jaunāko versiju, varat apmeklēt cilni Lejupielāde un skatīt visus laidienus.
2. solis) Noklikšķiniet uz lejupielādētā faila
3. solis) Atlasiet Pielāgot instalēšanu
4. solis) Noklikšķiniet uz NEXT
5. solis) Nākamajā ekrānā
- Atlasiet papildu opcijas
- Norādiet pielāgotu instalēšanas vietu. Manā gadījumā ērtākai darbībai tiek izvēlēta mape C diskā
- Noklikšķiniet uz Instalēt
6. solis. Kad instalēšana ir pabeigta, noklikšķiniet uz pogas Aizvērt.
7. solis) Kopējiet mapes Skripti ceļu.
8. solis) Windows komandrindā
- Pārejiet uz pip mapes atrašanās vietu
- Ievadiet komandu, lai instalētu NLTK
pip3 install nltk
- Instalēšana jāveic veiksmīgi
PIEZĪME . Python2 izmantojiet commandpip2 install nltk
9. solis) Windows izvēlnē Sākt meklējiet un atveriet PythonShell
10. solis. Jūs varat pārbaudīt, vai instalācija ir pareiza, sniedzot tālāk norādīto komandu
import nltk
Ja neredzat kļūdu, instalēšana ir pabeigta.
NLTK instalēšana Mac / Linux
Lai instalētu NLTK operētājsistēmā Mac / Unix, nltk instalēšanai nepieciešams python pakotņu pārvaldnieka pip. Ja PIP nav instalēts, lūdzu, izpildiet tālāk sniegtos norādījumus, lai pabeigtu procesu
1. solis. Atjauniniet paketes indeksu, ierakstot zemāk esošo komandu
sudo apt update
2. darbība. PIP instalēšana Python 3:
sudo apt install python3-pip
Jūs varat arī instalēt pip, izmantojot easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Tagad easy_install ir instalēts. Palaidiet zemāk esošo komandu, lai instalētu pip
sudo easy_install pip
3. solis. Izmantojiet šo komandu, lai instalētu NLTK
sudo pip install -U nltksudo pip3 install -U nltk
NLTK instalēšana, izmantojot Anaconda
1. solis. Lūdzu, instalējiet anaconda (ko var izmantot arī dažādu pakotņu instalēšanai), apmeklējot vietni https://www.anaconda.com/products/individual un atlasot, kura pitona versija jums jāinstalē anaconda.
Piezīme: Skatiet šo apmācību, lai iegūtu detalizētas darbības, lai instalētu anaconda
2. solis) uzvednē Anaconda
- Ievadiet komandu
conda install -c anaconda nltk
- Pārskatiet pakotnes jaunināšanu, pazeminiet versiju, instalējiet informāciju un ievadiet jā
- NLTK ir lejupielādēts un instalēts
NLTK datu kopa
NLTK modulī ir pieejamas daudzas datu kopas, kuras lietošanai jālejupielādē. Tehniskāk to sauc par korpusu . Daži no piemēriem ir atslēgvārdi , gutenbergs , framenet_v15 , large_grammars un tā tālāk.
Kā lejupielādēt visas NLTK paketes
1. solis. Palaidiet Python tulku sistēmā Windows vai Linux
2. solis)
- Ievadiet komandas
import nltknltk.download ()
- Tiek atvērts NLTK lejupielādētais logs. Noklikšķiniet uz pogas Lejupielādēt, lai lejupielādētu datu kopu. Šis process prasīs laiku, pamatojoties uz jūsu interneta savienojumu
PIEZĪME. Lejupielādes vietu var mainīt, noklikšķinot uz Fails> Mainīt lejupielādes direktoriju
3. solis. Lai pārbaudītu instalētos datus, izmantojiet šādu kodu
>>> from nltk.corpus import brown>>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Žūrija', 'teica', ...]
NLP skripta palaišana
Mēs apspriedīsim, kā NLP skripts tiks izpildīts mūsu vietējā datorā. Tirgū ir daudz dabiskās valodas apstrādes bibliotēku. Tātad bibliotēkas izvēle ir atkarīga no jūsu prasībām. Šeit ir NLP bibliotēku saraksts.
Kā palaist NLTK skriptu
1. solis) Iecienītākajā koda redaktorā nokopējiet kodu un saglabājiet failu kā " NLTKsample.py "
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Koda skaidrojums:
- Šajā programmā mērķis bija noņemt visa veida pieturzīmes no dotā teksta. Mēs importējām "RegexpTokenizer", kas ir NLTK modulis. Tas noņem visu izteicienu, simbolu, rakstzīmi, ciparus vai visas lietas, ko vēlaties.
- Jūs tikko esat nodevis regulāro izteiksmi modulim "RegexpTokenizer".
- Tālāk mēs apzīmējām vārdu, izmantojot moduli "tokenize". Izeja tiek saglabāta mainīgajā "filterdText".
- Un tos izdrukāja, izmantojot "print ()".
2. solis) Komandu uzvednē
- Pārejiet uz vietu, kur esat saglabājis failu
- Palaidiet komandu Python NLTKsample.py
Tas parādīs izvadi kā:
["Sveiki", "Guru99", "Jūs", "esat", "būvējiet", "a", "ļoti", "labi", "vietne", "un", "es", "mīlestība", " apmeklējot ',' jūsu ',' vietni ']