国产v亚洲v天堂无码久久无码_久久久久综合精品福利啪啪_美女扒开尿口让男人桶_国产福利第一视频在线播放_滨崎步无码AⅤ一区二区三区_三年片免费观看了_大屁股妇女流出白浆_泷川苏菲亚无码AV_我想看我想看一级男同乱伦_国产精品午夜福利免费视频,gogo国模全球大胆高清摄影图,2008门艳照全集视频,欧美午夜在线精品品亚洲AV中文无码乱人伦在线播放

Lesson 19 ------nltk VS antconc
來(lái)源: 陳仕鴻/
廣東外語(yǔ)外貿(mào)大學(xué)
2239
0
0
2018-06-12



一、nltk的文體分析及統(tǒng)計(jì)應(yīng)用

  1.  Searching Text

from nltk.book import * text1.concordance("monstrous")text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"])


2. Counting Vocabulary


len(text3) sorted(set(text3))    #構(gòu)建詞典


3. 詞頻統(tǒng)計(jì) frequency distribution

fdist1 = FreqDist(text1)

print(fdist1)

print(fdist1("whale")

fdist1.plot(50, cumulative=True)

4. Collocations and Bigrams

text4.collocations()

text8.collocations()


二、NLP集成平臺(tái)

bosonNLP

哈工大語(yǔ)言技術(shù)平臺(tái)(LTP) 

中科院:自然語(yǔ)言處理與信息檢索共享平臺(tái) ICTCLAS 


三,、NLP工具軟件 Antconc

http://www.laurenceanthony.net/software/antconc/



Antconc

練習(xí)1:導(dǎo)入nltk的gutenberg,,同時(shí)查找begin, bigan, bibun, beginning,bigins

練習(xí)2:查找一下單詞: off

練習(xí)3:檢索“the * of”這種結(jié)構(gòu)

練習(xí)4:查找數(shù)字

練習(xí)5:查找15個(gè)字母以上的單詞

練習(xí)6:檢索“ed結(jié)尾的動(dòng)詞與ly結(jié)尾的副詞的搭配”


例:提取語(yǔ)料庫(kù)中所有的名詞,只需鍵入*_NN(NN為名詞標(biāo)碼)

練習(xí)7:導(dǎo)入brown語(yǔ)料庫(kù),,檢索love這個(gè)詞的動(dòng)詞用法

練習(xí)8:找“介詞+名詞”這種結(jié)構(gòu)

練習(xí)9:使用通配符檢索

符號(hào)

意義

檢索項(xiàng)

檢索結(jié)果

*

零個(gè)或多個(gè)字符

book*

提取所有以book打頭的詞,,如bookbooks,、booking,、bookshop

*book

提取所有以book結(jié)尾的詞,如book,、notebook

*book*

可以同時(shí)提取包括以上兩類詞

+

零個(gè)或一個(gè)字符

book+

提取所有以book打頭的詞,,但之后有零個(gè)或一個(gè)字母,如book,、books

,?

任意一個(gè)字符

?ough

提取所有以字母組合ough結(jié)尾的,但之前有一個(gè)字母的詞,,如cough,、rough

@

零個(gè)或一個(gè)詞

think@of

 

提取所有含有的詞組,如think   of,、think highly of

#

任意一個(gè)詞

look#

提取所有與look的搭配,,如look afterlook at


練習(xí)10:提取搭配詞表collocate,。 

look

make

get

ask

catch

turn

keep

練習(xí)11:提取搭配短語(yǔ)Clusters,。練習(xí)詞同上。


練習(xí)12:提取詞頻表wordlist,。


練習(xí)13:

N字語(yǔ)詞頻表是指目標(biāo)語(yǔ)料庫(kù)的多字語(yǔ)頻數(shù)表,。例如,檢索句子“This is a pen”的2字語(yǔ)詞頻表結(jié)果為:“this is”,、“is a”,、“a pen”。

N字語(yǔ)詞頻表的提取方法:a)進(jìn)入clusters界面,,b)選中 N-gram,;c)設(shè)置N字語(yǔ)詞頻表的長(zhǎng)度


練習(xí)14:詞項(xiàng)重組---詞簇化(lemmatizing)

詞簇化是將同一詞性的某個(gè)詞的所有曲折變化形式作削尾處理,并歸為一個(gè)詞簇來(lái)計(jì)算頻數(shù),。其好處是可以簡(jiǎn)約詞頻表并且引起對(duì)構(gòu)詞法的關(guān)注,。對(duì)詞頻表進(jìn)行詞簇化的方法如下:在 界面生成詞頻表之后,,拉下Tool Preference菜單,選擇Lemma list options, 點(diǎn)擊open 和load,,上傳lemma文檔(點(diǎn)這里下載),,最后點(diǎn)擊Apply 。


練習(xí)15:提取關(guān)鍵詞表

關(guān)鍵詞表是指兩個(gè)語(yǔ)料庫(kù)的詞頻表相比,,其中一個(gè)明顯地高頻于另一個(gè)的那部分詞項(xiàng)表,。

前一個(gè)稱目標(biāo)語(yǔ)料庫(kù),就是要分析keywords的文檔,;例如之前分析過(guò)的“中國(guó)蜜蜂養(yǎng)殖”,。

后一個(gè)稱參照語(yǔ)語(yǔ)料庫(kù),通常規(guī)模要大一些,,以此來(lái)凸現(xiàn)目標(biāo)語(yǔ)料庫(kù)的一些特別高頻詞以浮現(xiàn)該語(yǔ)料庫(kù)的主題或內(nèi)容特色,。例如google搜索出來(lái)的結(jié)果。





附件

登錄用戶可以查看和發(fā)表評(píng)論,, 請(qǐng)前往  登錄 或  注冊(cè),。
SCHOLAT.com 學(xué)者網(wǎng)
免責(zé)聲明 | 關(guān)于我們 | 聯(lián)系我們
聯(lián)系我們: