11.4 本章小結
本章在對相關自動分類研究成果分析與借鑒的基礎上,提出了一個基于機器統(tǒng)計學習方法與基于規(guī)則分類相結合的分類模型[3—4],研究并實現(xiàn)了該自動分類系統(tǒng),在選定語料集上進行了驗證實驗。譚金波等曾利用統(tǒng)計與規(guī)則結合的方法對網(wǎng)頁進行層次分類研究,其實驗表明,統(tǒng)計與規(guī)則結合的方法能獲得比較理想的分類效果[5]。
該自動分類系統(tǒng)的新穎性主要體現(xiàn)在以下幾個方面:
①結合漢語構造法及復合詞成詞規(guī)律,借鑒關鍵詞輪排原理思想,結合相關統(tǒng)計模型,從正反兩個方向對原始抽詞詞典依據(jù)其中心詞進行壓縮和優(yōu)選,達到降維和準確表達主題的目的。
②在對不同特征選擇及權值計算方法的本質優(yōu)缺點分析的基礎上,采用多方法相結合的策略,以“投票”方式進行特征選擇和權值賦值,發(fā)揮各方法的優(yōu)勢,提高文本標引的準確性。
③針對不同分類體系所固有的特點,研究探索層次分類的算法,以達到準確進行分類的目的。
④在一定程度上實驗驗證了不同分類器的互補作用,探索并設計了基于機器統(tǒng)計學習法與決策規(guī)則法兩種方法的分類模型,探討了雙重分類的分界閾值及算法思路。
⑤研究了在保持分類能力的前提下,影響分類速度的相關因素,同時提出了改進方案。
該自動分類系統(tǒng)在開發(fā)過程中還存在以下幾方面不足之處:
①在基于粗糙集的規(guī)則提取與匹配部分沒有獨立進行相關算法的設計,同時也沒有對基于其他規(guī)則分類的算法進行對比實驗和可行性探索。
②系統(tǒng)對數(shù)據(jù)格式要求較為嚴格,適應性上存在局限性。
③本分類系統(tǒng)主要針對的是主題分類,并未考慮如地名、國別等因素,對基于《中圖法》分類體系的分類結果會產(chǎn)生潛在影響。
④對層次分類的集成還未完全實現(xiàn)。
結合以上本系統(tǒng)開發(fā)中的一些收獲與存在的問題,未來需要進一步完成解決的工作主要有以下幾點:
①除了保持本專業(yè)領域的固定的術語詞典外,如何較為徹底地解決生活中不斷涌現(xiàn)的大量的新生關鍵詞(尤其是進行新聞一類的文獻自動分類時),加入到文本自動標引中,更好地提高文本自動分類的效果,成為亟待解決的一個問題。
②分類體系是隨著發(fā)展需要而不斷調整的,如何使自動分類系統(tǒng)能夠隨著分類體系的變化具備一定的靈活性,尤其是當分類體系發(fā)生變化或新的語料加入到分類系統(tǒng)中時,如何利用已有的訓練結果,將其集成進新的訓練體系中,從而提高系統(tǒng)訓練分類的效率,也是一個不容忽視的問題。
如前所述,如何將層次分類的方法集成進分類系統(tǒng)中,能夠自由定制分類的層次,并利用層次分類的優(yōu)勢提高分類效果,也是未來本系統(tǒng)需要做的工作。
免責聲明:以上內(nèi)容源自網(wǎng)絡,版權歸原作者所有,如有侵犯您的原創(chuàng)版權請告知,我們將盡快刪除相關內(nèi)容。