基于文本分類的方法
6.5.2 基于文本分類的方法
相似度系數(shù)是一種比較簡單有效的評估方法,但是需要首先保證人工標引的質(zhì)量,很難客觀真實地反映關鍵詞自動抽取方法的性能。文本信息自動處理的根本目標不是關鍵詞本身,而是它們在實際應用系統(tǒng)獲得的檢索性能。自動分類是最常用的文本信息自動處理技術(shù)之一。運用關鍵詞進行自動分類的能力被認為是評估關鍵詞自動抽取方法性能的最佳手段。
基于中文分詞和TF/IDF的關鍵詞抽取方法(簡稱TKEY方法)長期以來一直占主導地位。本文主要對GKEY方法和TKEY方法的性能進行對比分析。實驗數(shù)據(jù)集(CWT)由北京大學網(wǎng)絡實驗室提供,包括15 605個網(wǎng)頁文本。訓練集和測試集劃分與原數(shù)據(jù)集一致。數(shù)據(jù)集的分類表結(jié)構(gòu)以及訓練集和測試集見表6-3。
表6-3 CWT數(shù)據(jù)集的類別分布及劃分
TKEY方法中的中文分詞采用ICTCLAS。TF/IDF定義為:
其中,n表示數(shù)據(jù)集中的文獻總數(shù),dk表示數(shù)據(jù)集中包括詞k的文獻總數(shù),fk表示詞k在文獻i中出現(xiàn)的頻率[8]。在實際操作中,aki閾值的確定比較困難,為了便于比較兩種關鍵詞自動抽取方法的性能,規(guī)定每篇文獻兩種方法抽取的關鍵詞數(shù)量盡量相同。具體做法:首先用GKEY方法抽取出數(shù)據(jù)集中每篇文獻的關鍵詞(其中k=1),然后根據(jù)每篇文獻的關鍵詞數(shù)量,決定TKEY方法對每篇文獻抽取出的關鍵詞數(shù)量。
TKEY方法操作步驟:
(1)用ICTCLAS分詞系統(tǒng)進行分詞。
(2)清除文本中的停用詞和特殊符號。
(3)計算每個詞的aki值,并將aki值由大到小排序。
(4)參照GKEY方法抽取出的關鍵詞數(shù)量,再按aki值大小抽取出相應數(shù)量的關鍵詞。
采用GKEY方法從訓練集中抽取出139 658個關鍵詞,其中56個關鍵詞分詞錯誤;從測試集中抽取出37 251關鍵詞,其中25個關鍵詞分詞錯誤。用TKEY方法從訓練集中抽取出137 574個關鍵詞,從測試集中抽取出36 819個關鍵詞。分類性能評價采用信息檢索領域最經(jīng)典的兩個指標:
查全率:
查準率:
其中Ci表示i類測試文獻的所有關鍵詞,Cj表示j類訓練文獻的所有關鍵詞,Ri,j表示測試集中j類文獻預測到訓練集中i類的查全率,Pi,j表示測試集中j類文獻預測到訓練集中i類的查全率。實驗結(jié)果如表6-4、表6-5、表6-6和表6-7所示。
表6-4 GKEY方法在CWT數(shù)據(jù)集上的查全率
表6-5 GKEY方法在CWT數(shù)據(jù)集上的查準率
續(xù)表 6-5
表6-6 TKey方法在CWT數(shù)據(jù)集上的查全率
表6-7 TKey方法在CWT數(shù)據(jù)集上的查準率
一個分類系統(tǒng)總是期望,當i=j時,查全率和查準率越高越好;而當i≠j時,查全率和查準率越低越好。即盡可能少地避免交叉分類的情況。為了更全面地反映分類系統(tǒng)的分類性能,定義了平均查全率和平均查準率指標,其中m是整個分類系統(tǒng)中類別的數(shù)量。
平均查全率:
平均查準率:
采用GKEY方法在CWT數(shù)據(jù)集上獲得的實驗效果:avg(Ri=j)和avg(Ri≠j)分別為0.30和0.24,avg(Pi=j)和avg(Pi≠j)分別為0.71和0.24。
采用TKey方法在CWT數(shù)據(jù)集上獲得的實驗效果:avg(Ri=j)和avg(Ri≠j)分別為0.22和0.11,avg(Pi=j)和avg(Pi≠j)avg(Ri=j)分別為0.54和0.21。
GKEY方法在分類系統(tǒng)中獲得的檢索性能明顯優(yōu)于TKey方法,關鍵原因在于:一是中文分詞主要從語言學的角度,而不是概念的角度考慮如何斷詞,大量專指概念被切分為比較泛指的詞。例如:“操作系統(tǒng)”被切分為“操作”和“系統(tǒng)”,“語音編碼”被切分為“語音”和“編碼”;二是TF/IDF權(quán)重法假設一個特定數(shù)據(jù)集的文獻應該是相關的,而CWT數(shù)據(jù)集中的文獻涉及多個學科。
在關鍵詞篩選算法中,k是一個可以控制標引深度和標引專指度的參數(shù)。最佳k值的選擇應該根據(jù)具體的應用系統(tǒng)來確定。原則上,選擇可以獲得最佳檢索性能的k值。下面,我們采用CWT數(shù)據(jù)集進行分類實驗,以具體說明k值對關鍵詞抽取性能的影響(見圖6-2、圖6-3)。
圖6-2 不同k值在CWT上獲得的查全率
圖6-3 不同k值在CWT上獲得的查準率
參數(shù)k對關鍵詞的抽取性能具有較大的影響。在CWT數(shù)據(jù)集上的實驗,當k定義為2時,分類系統(tǒng)可以獲得最優(yōu)的檢索性能。當k=4時,系統(tǒng)查全率和查準率最低。這說明當關鍵詞過于專指或者泛指時,系統(tǒng)都不能獲得最優(yōu)的檢索性能。
免責聲明:以上內(nèi)容源自網(wǎng)絡,版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關內(nèi)容。