算法設(shè)計(jì)原理
4.2 算法設(shè)計(jì)原理
如前所述,在采用統(tǒng)計(jì)方法的自動(dòng)分類領(lǐng)域,有關(guān)權(quán)值計(jì)算方法基本穩(wěn)定了,當(dāng)然在此基礎(chǔ)上也有一些改進(jìn)方法被研究出來(lái),如曹慧提出的AMTW算法等[10]。在此對(duì)各特征權(quán)重計(jì)算方法作分析:
①TF-IDF方法:該方法將文檔集作為整體來(lái)考慮,但忽略了特征項(xiàng)在類間和類內(nèi)的分布情況??梢栽O(shè)想,如果某一特征項(xiàng)在某個(gè)類別大量出現(xiàn),而在其他類別出現(xiàn)較少,則其分類能力應(yīng)該很強(qiáng)。但TF-IDF算法對(duì)此的體現(xiàn)不強(qiáng)烈。另外,對(duì)集中分布于某一類別但類內(nèi)分布相對(duì)均勻的特征項(xiàng)的權(quán)重應(yīng)該比分布不均勻的要高(即類內(nèi)出現(xiàn)特征項(xiàng)的文獻(xiàn)數(shù)量很少時(shí),可能該特征項(xiàng)是特例,不具代表性),TF-IDF無(wú)法排除這種特例情況。同時(shí)該方法也對(duì)低頻高權(quán)的特征項(xiàng)同樣沒(méi)有很有效的處理辦法。
②MI(互信息):互信息方法其含義是針對(duì)每個(gè)特征詞,可以以其在每個(gè)類別中的出現(xiàn)占它在整個(gè)文本集中的出現(xiàn)的比率作為它對(duì)每個(gè)類別分類依據(jù)的貢獻(xiàn)。該衡量方法是基于各個(gè)類別中的文本量大致相等的假設(shè)的,即這種方法忽略了類別中文本量的多少對(duì)詞條在每個(gè)類別中出現(xiàn)的比率的影響。可以設(shè)想有一種極端情況,類別ci有超過(guò)100個(gè)的樣本,而類別cj只有1~2個(gè)少量樣本。這時(shí),即使某個(gè)詞t與類別c i的相關(guān)程度很小,由于計(jì)算得出的其和ci的互信息很大而被選中作為特征項(xiàng)。相反,即使t與類別c j的相關(guān)程度很大,但由于計(jì)算得出的其和cj的互信息很小而可能被丟棄不作為特征項(xiàng)。這是該方法的缺陷所在。
③CHI(x 2):原算法未考慮特征項(xiàng)出現(xiàn)與否對(duì)分類的貢獻(xiàn)可能存在正貢獻(xiàn)和負(fù)貢獻(xiàn)的情況。
④IG(信息增益):信息增益方法由于考慮了單詞未出現(xiàn)的情況,認(rèn)為“單詞不出現(xiàn)”對(duì)判斷文本分類有貢獻(xiàn),但相關(guān)研究表明,這反而對(duì)分類造成了較大的干擾。尤其是在類分布和特征項(xiàng)權(quán)值分布高度不平衡的情況下,出現(xiàn)較多的負(fù)類和較多的不出現(xiàn)特征詞,從而導(dǎo)致最終分類精度的下降。
因此如何避免上述方法的不足(對(duì)部分低頻詞的倚重),發(fā)揮它們的優(yōu)勢(shì),需要一種矯正方法。因各類算法的復(fù)雜度均比較高,單純通過(guò)加大訓(xùn)練語(yǔ)料不可取。另外,以上方法雖然計(jì)算公式不同,但有一個(gè)共同的特點(diǎn),即基本都是以詞在類內(nèi)、類間的頻率或概率為基礎(chǔ)的。
基于以上分析,筆者設(shè)想,在基本詞頻統(tǒng)計(jì)完成的基礎(chǔ)上,依次按上述方法計(jì)算其權(quán)值,在設(shè)定閾值范圍內(nèi)確定各自的特征項(xiàng)集,最后取其交集,并計(jì)算綜合權(quán)值,可以稱其為“投票法”。
具體思路描述如下:
在訓(xùn)練集中選取某類,特征選擇方法i的權(quán)值計(jì)算結(jié)果為(已按權(quán)值大小排好序,括號(hào)中的第2項(xiàng)為序號(hào)):
Si:T i1(x i1,y i1),T i2(x i2,y i2),T i3(x i3,y i3),…,T ij(x ij,y ij) (i=1,2,3,…;j為集合元素總數(shù))
如此,共有4個(gè)這樣的集合,依次為S1,S2,S3,S4。在取定的特征項(xiàng)數(shù)量?jī)?nèi)進(jìn)行交運(yùn)算:
某個(gè)特征詞T w的最后權(quán)值為:
其中T w為最終權(quán)值,y i為該特征詞在各個(gè)集合中的序號(hào)。之后再重新排序并確定為最終該類的表達(dá)向量矩陣。
特征選擇及權(quán)值算法:
輸入:抽詞結(jié)果庫(kù)
輸出:投票法權(quán)值計(jì)算的特征向量庫(kù)
步驟如下:
Step1:抽詞結(jié)果庫(kù)的類內(nèi)詞頻統(tǒng)計(jì)
Step2:抽詞結(jié)果庫(kù)的類間詞頻統(tǒng)計(jì)
Step3:基于四種權(quán)值計(jì)算方法的各權(quán)值計(jì)算
A)TF-IDF,生成w_value/w_value2列集合(分別存儲(chǔ)特征權(quán)值及排序后的序號(hào),下同)
B)MI,生成m_value/m_value2列集合
C)CHI(x2),生成c_value/c_value2列集合
D)IG,生成i_value/i_value2列集合
Step4:計(jì)算序號(hào)均值,生成value/vaule2列集合
Step5:根據(jù)設(shè)定閾值,生成最終向量分類矩陣知識(shí)庫(kù)
示例如下:
取訓(xùn)練集中“法律”類為例,其中的前14條特征項(xiàng)分別采用以上4種方法進(jìn)行權(quán)值計(jì)算,結(jié)果如表4-1。
最終的權(quán)值采用合集方式確定,計(jì)算方法見(jiàn)公式4-8。
為了觀察不同特征項(xiàng)選擇及權(quán)值計(jì)算方法對(duì)分類效果的影響,驗(yàn)證筆者所設(shè)計(jì)方法的改進(jìn)效果,筆者對(duì)此進(jìn)行了驗(yàn)證實(shí)驗(yàn)。
本次實(shí)驗(yàn)測(cè)試數(shù)據(jù)采用ChinaInfoBank[11]數(shù)據(jù)集,分類器采用最小距離分類器,即單一向量夾角余弦公式,測(cè)試環(huán)境同前。在其他條件不變的情況下,分別采用綜合權(quán)值方式及各自單獨(dú)權(quán)值方式進(jìn)行自動(dòng)分類實(shí)驗(yàn),然后進(jìn)行統(tǒng)計(jì)對(duì)比。
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。