11.1.2 訓練樣本數(shù)量對自動分類的影響分析
馮是聰對訓練樣本的最佳數(shù)量進行了實驗,得出結論是最小樣本數(shù)是在15個[1]。對此本系統(tǒng)采用15個為起點,分別將訓練樣本增加至50、100、150、300及以上進行分類測試(其中測試集保持不變,均為每類50篇文本。本次測試以向量距離法為分類器進行,特征選擇采用TF-IDF,測試語料為ChinaInfoBank),結果如圖11-1所示。
圖11-1 不同訓練樣本的分類結果對比
從圖11-1中可以看出,除了在訓練語料從15篇到50篇增加時,正確率有較大幅度增長(從68.39%到73.92%),在隨后的語料增加中,正確率已基本趨于穩(wěn)定,保持在73%左右??梢娪柧毤囊?guī)模對分類系統(tǒng)的性能有一定影響。隨著訓練規(guī)模的增大,分類性能逐漸改善,但是到了一定的規(guī)模后分類性能變化不大,并保持在一個較穩(wěn)定的值上。
有一點也必須注意,就是當訓練規(guī)模增大時,雖然對分類性能有所改善,但是訓練時間也成倍增加,相應特征項潛在增加,分類時間也會加大。所以在實際應用中應綜合考慮分類性能和時間要求。
如果將語料增加的幅度值變小,可能會更好地看出其變化情況。因數(shù)據(jù)收集原因,本書在選擇訓練集時,不同類目的訓練文本數(shù)有一些差別,多的為400條(上限),最少的也有119條以上,因此本系統(tǒng)所用語料庫的數(shù)據(jù)量的差異不會對分類效果造成影響。
免責聲明:以上內(nèi)容源自網(wǎng)絡,版權歸原作者所有,如有侵犯您的原創(chuàng)版權請告知,我們將盡快刪除相關內(nèi)容。