Teikumu atzīmēšana
Teikuma atzīmēšana plašākā nozīmē attiecas uz darbības vārda, lietvārda utt. Etiķešu pievienošanu pēc teikuma konteksta. POS tagu identifikācija ir sarežģīts process. Tādējādi POS vispārīga marķēšana nav iespējama manuāli, jo dažiem vārdiem var būt atšķirīga (neskaidra) nozīme atbilstoši teikuma struktūrai. Teksta konvertēšana saraksta veidā ir svarīgs solis pirms marķēšanas, jo katrs saraksta vārds tiek sasaistīts un uzskaitīts konkrētam tagam. Lūdzu, skatiet zemāk esošo kodu, lai to labāk saprastu
import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))
IZVADE
[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]
Kods Paskaidrojums
- Nltk importēšanas kods (dabiskās valodas rīkkopa, kas satur tādus apakšmoduļus kā teikuma tokenize un vārdu tokenize.)
- Teksts, kura birkas jādrukā.
- Teikuma marķēšana
- Cilpai tiek realizēts, kad vārdi tiek apzīmēti no teikuma, un katra vārda atzīme tiek drukāta kā izeja.
Korpusā ir divu veidu POS marķētāji:
- Pamatojoties uz noteikumiem
- Stohastiskie POS marķētāji
1. Noteikumiem balstīts POS tagger: vārdiem ar neskaidru nozīmi tiek piemērota uz noteikumiem balstīta pieeja, pamatojoties uz kontekstuālo informāciju. Tas tiek darīts, pārbaudot vai analizējot iepriekšējā vai nākamā vārda nozīmi. Informācija tiek analizēta no vārda apkārtnes vai sevī. Tāpēc vārdi tiek apzīmēti ar konkrētas valodas gramatikas noteikumiem, piemēram, lielajiem burtiem un pieturzīmēm. piem., Brila marķieris.
2. Stohastiskais POS marķētājs: Izmantojot šo metodi, tiek izmantotas dažādas pieejas, piemēram, biežums vai varbūtība. Ja treniņu komplektā vārds galvenokārt tiek apzīmēts ar noteiktu tagu, testa teikumā tam tiek piešķirts konkrētais tags. Vārda tags ir atkarīgs ne tikai no tā paša taga, bet arī no iepriekšējā taga. Šī metode ne vienmēr ir precīza. Vēl viens veids ir aprēķināt konkrēta taga parādīšanās varbūtību teikumā. Tādējādi gala atzīme tiek aprēķināta, pārbaudot vislielāko varbūtību vārdam ar konkrētu tagu.
Slēpts Markova modelis:
Atzīmēšanas problēmas var modelēt arī, izmantojot HMM. Tas uzskata ievades marķierus par novērojamu secību, kamēr tagi tiek uzskatīti par slēptiem stāvokļiem, un mērķis ir noteikt slēpto stāvokļu secību. Piemēram, x = x 1 , x 2 ,…, x n, kur x ir žetonu secība, savukārt y = y 1 , y 2 , y 3 , y 4 … y n ir slēpta secība.
Kā darbojas HMM modelis?
HMM izmanto pievienošanās sadalījumu, kas ir P (x, y), kur x ir ievades secība / marķiera secība un y ir tagu secība.
Tagu secība x būs argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Mēs esam klasificējuši tagus no teksta, taču šādu tagu statistika ir ļoti svarīga. Tātad nākamā daļa ir šo tagu uzskaite statistikas pētījumam.