WWW国产精品内射熟女,美女被躁出白浆视频播放

Lesson 19 ------nltk VS antconc

來源: 陳仕鴻/

廣東外語外貿(mào)大學(xué)

2707

2018-06-05 20:21:20

2018-06-12

一,、nltk的文體分析及統(tǒng)計(jì)應(yīng)用

Searching Text

from nltk.book import * text1.concordance("monstrous")text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"])

2. Counting Vocabulary

len(text3) sorted(set(text3)) #構(gòu)建詞典

3. 詞頻統(tǒng)計(jì) frequency distribution

fdist1 = FreqDist(text1)

print(fdist1)

print(fdist1("whale")

fdist1.plot(50, cumulative=True)

4. Collocations and Bigrams

text4.collocations()

text8.collocations()

二,、NLP集成平臺

bosonNLP

哈工大語言技術(shù)平臺(LTP)

中科院：自然語言處理與信息檢索共享平臺 ICTCLAS

三,、NLP工具軟件　Antconc

http://www.laurenceanthony.net/software/antconc/

Antconc

練習(xí)1：導(dǎo)入nltk的gutenberg,，同時(shí)查找begin, bigan, bibun, beginning,bigins

練習(xí)2：查找一下單詞: off

練習(xí)3：檢索“the * of”這種結(jié)構(gòu)

練習(xí)4：查找數(shù)字

練習(xí)5：查找15個字母以上的單詞

練習(xí)6：檢索“ed結(jié)尾的動詞與ly結(jié)尾的副詞的搭配”

例：提取語料庫中所有的名詞,，只需鍵入*_NN（NN為名詞標(biāo)碼)

練習(xí)7：導(dǎo)入brown語料庫,，檢索love這個詞的動詞用法

練習(xí)8：找“介詞+名詞”這種結(jié)構(gòu)

練習(xí)9：使用通配符檢索

符號	意義	檢索項(xiàng)	檢索結(jié)果
*	零個或多個字符	book*	提取所有以book打頭的詞，如book,、books,、booking、bookshop等
		*book	提取所有以book結(jié)尾的詞,，如book,、notebook等
		book	可以同時(shí)提取包括以上兩類詞
+	零個或一個字符	book+	提取所有以book打頭的詞，但之后有零個或一個字母,，如book,、books
？	任意一個字符	?ough	提取所有以字母組合ough結(jié)尾的,，但之前有一個字母的詞,，如cough、rough等
@	零個或一個詞	think@of	提取所有含有的詞組,，如think of,、think highly of等
#	任意一個詞	look#	提取所有與look的搭配，如look after,、look at等

練習(xí)10：提取搭配詞表collocate,。

look

make

get

ask

catch

turn

keep

練習(xí)11：提取搭配短語Clusters。練習(xí)詞同上,。

練習(xí)12：提取詞頻表wordlist,。

練習(xí)13：

N字語詞頻表是指目標(biāo)語料庫的多字語頻數(shù)表。例如,，檢索句子“This is a pen”的2字語詞頻表結(jié)果為：“this is”,、“is a”、“a pen”,。

N字語詞頻表的提取方法：a)進(jìn)入clusters界面,，b)選中 N-gram；c)設(shè)置N字語詞頻表的長度

練習(xí)14：詞項(xiàng)重組---詞簇化（lemmatizing）

詞簇化是將同一詞性的某個詞的所有曲折變化形式作削尾處理,，并歸為一個詞簇來計(jì)算頻數(shù),。其好處是可以簡約詞頻表并且引起對構(gòu)詞法的關(guān)注。對詞頻表進(jìn)行詞簇化的方法如下：在界面生成詞頻表之后,，拉下Tool Preference菜單,，選擇Lemma list options, 點(diǎn)擊open 和load，上傳lemma文檔（點(diǎn)這里下載）,，最后點(diǎn)擊Apply ,。

練習(xí)15：提取關(guān)鍵詞表

關(guān)鍵詞表是指兩個語料庫的詞頻表相比,，其中一個明顯地高頻于另一個的那部分詞項(xiàng)表。

前一個稱目標(biāo)語料庫,，就是要分析keywords的文檔,；例如之前分析過的“中國蜜蜂養(yǎng)殖”。

后一個稱參照語語料庫,，通常規(guī)模要大一些,，以此來凸現(xiàn)目標(biāo)語料庫的一些特別高頻詞以浮現(xiàn)該語料庫的主題或內(nèi)容特色。例如google搜索出來的結(jié)果,。

附件

[1] AntConc的詳細(xì)使用說明.pdf

登錄用戶可以查看和發(fā)表評論,，請前往登錄或注冊。