算法設(shè)計及實驗
3.4.2 算法設(shè)計及實驗
根據(jù)以上分析,筆者設(shè)計了以下算法進行詞典約簡:
輸入:輪排后的原始抽詞詞典
輸出:基于核心詞的約簡結(jié)果
步驟如下:
Step1:對詞典進行自切分成A|B|C格式(其中B為中心詞)
Step2:依次處理A|B、B|C(AC均不為空者不作處理,保留)
Step3:復(fù)原輪排結(jié)果至原始詞典
Step4:查重合并輸出
以上算法其結(jié)果舉例如下(“^”表示為空):
A B C MI
^ 凹印 ^ 0.0000000
^ 凹印 機 ?。?.529 429 1
^ 凹印 技術(shù) ?。?.439 350 4
^ 凹印 企業(yè) ?。?.018 401 8
通過實驗方法,最后設(shè)定的閾值為-2.000 000 0,因此小于該閾值的“機、技術(shù)、企業(yè)”被清空,最后查重,僅保留“凹印”一詞。
經(jīng)過以上處理,得到了一個僅含有28 670條詞條的小詞典,經(jīng)人工審核,最終確定其規(guī)模為27 958條。
為了驗證以上經(jīng)過約簡從而導(dǎo)致的詞典條目數(shù)量變化對分類效果的影響,我們構(gòu)造了一個基于向量空間及基于簡單向量距離分類器的分類系統(tǒng),特征權(quán)值計算仍采用TF-IDF法,分別采用本詞典和原始詞典進行切分和分類實驗,基于ChinaInfoBank[15]語料庫來進行測試,結(jié)果如表3-1(測試環(huán)境P4/2.6G/256M)。
表3-1 不同詞典對分類結(jié)果的影響
從表3-1可以看出,在含核心詞的詞典條目達到一定規(guī)模的情況下,其數(shù)量的增加對分類效果的影響已經(jīng)很小,與降維的效果以及時間、空間復(fù)雜度的降低程度相比來說,這一影響已經(jīng)基本可以忽略。因此,通過該方法不僅可以有效精簡特征抽取用抽詞詞典的規(guī)模,提高系統(tǒng)運行效率,同時對系統(tǒng)分類效果的影響也不大。
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。