精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁 ? 理論教育 ?分類知識庫中存在分類錯誤現(xiàn)象

        分類知識庫中存在分類錯誤現(xiàn)象

        時間:2023-02-27 理論教育 版權反饋
        【摘要】:6.5.2 質量測評對本系統(tǒng)中所用的分類知識庫進行抽樣,將主題詞與分類號的對應情況與《中分表》相比,來驗證分類知識庫的質量。從實驗結果可以看出:在數(shù)量上,分類知識庫比《中分表》多,分類知識庫具有較好的文獻保障,更新容易;在質量上,分類知識庫用作文本自動標引和自動分類用知識庫,具有很高的質量保證;此外,從功能上還可以看出,分類知識庫較《中分表》應用更方便,擴充性強,可滿足實際需要。
        質量測評_文本自動標引與自動分類研究

        6.5.2 質量測評

        對本系統(tǒng)中所用的分類知識庫進行抽樣,將主題詞與分類號的對應情況與《中分表》相比,來驗證分類知識庫的質量。

        本書從分類知識庫中隨機抽取400條記錄,將記錄的主題詞、分類號字段與《中分表》進行比較,統(tǒng)計比較結果如表6-11所示。其中:

        ①完全相同:指該記錄來自于《中分表》;

        ②基本相同:指該記錄和《中分表》在分類號一致的情況下,主題詞字段中的前兩個詞與《中分表》中的主題詞相同或為同義詞;

        ③基本相關:指該記錄和《中分表》在分類號一致的情況下,主題詞字段中的前兩個詞與《中分表》中的主題詞不相同或者不相似,但具有相關關系;

        ④錯誤:不具有以上關系的對應被認為是錯誤的,或稱“不相關”。

        img71

        表6-11 分類知識庫抽樣統(tǒng)計結果表

        img72

        由表6-11可以看出,分類知識庫與《中分表》相比,相關率高達98.25%,其中基本相同和基本相關記錄占總記錄數(shù)的93.25%,錯誤率僅為1.75%。此結果表明了Web挖掘分類用知識庫具有很高的質量保證。

        值得注意的是,基本相關的依據(jù)是分類知識庫的主題詞字段的前兩個詞與《中分表》比較的結果,而取前兩個詞的依據(jù)來自它們在字段的排序結果(見4.3.2節(jié)內(nèi)容),因此,前面的方案對本部分的測試有一定的影響。若排序結果不當,則會“隱藏”掉主題表達能力強的主題詞。

        根據(jù)系統(tǒng)運行的結果(見本書第8章),采用分類知識庫對隨機抽取的網(wǎng)頁的標引正確率接近80%,詞表的編制速度快,開放性好,有著良好的文獻保障,對新知識反映速度快,可以標引絕大多數(shù)經(jīng)濟類網(wǎng)頁,但仍有一部分文本不能正確標引。標引錯誤的原因分析如下:

        ①語義相似度閾值過高

        從網(wǎng)頁中抽取的關鍵詞串通過簡單字面匹配在知識庫中無法找到匹配記錄,并且語義相似度計算無法達到設置的閾值,導致分類錯誤。例如對編號為HTSC_4的文本的提取結果為:

        [配售+53][新股+51][投資者+15][體現(xiàn)+14][市場+14][含金量+10]|市場|F014.3

        抽取出反映網(wǎng)頁內(nèi)容的“配售”、“新股”在知識庫中沒有與之匹配的記錄,因此分配到了“市場”大類下。

        ②分類知識庫中存在分類錯誤現(xiàn)象

        這種現(xiàn)象在隨著最小支持度閾值(min_sup)和最小置信度閾值的增大而愈加明顯。例如編號為HTSC_4的文本的提取結果為:

        [明顯+11][宏觀研究+10][市場研究+10][通貨緊縮+8][經(jīng)濟+7]|通貨緊縮|F723

        抽取的主題詞串在知識庫中只找到了匹配的概念詞“通貨緊縮”,但知識庫中存在錯誤記錄“通貨緊縮—F723”,因此將應屬“F812.0”的網(wǎng)頁錯分在“F723”下。

        ③主題提取不準確導致分類錯誤

        有些網(wǎng)頁的title項不能很好地反映主題,在網(wǎng)頁關鍵詞抽取中,抽取到了主題表達能力較弱的關鍵詞,致使無法找到正確的匹配記錄。例如編號為HTSC_7的文本的提取結果為:

        [財經(jīng)+15][消息+10][汽車市場+9][轎車+7][中國市場+7]|市場—調(diào)查—中國|F723

        該html文本的title項為《財經(jīng)消息》,題名為《海外車商中國鏖戰(zhàn)》,而權重方案中取title的權重為最大,使得主題表達能力較弱的關鍵詞,如“財經(jīng)”、“消息”等成為概念詞串的一部分。

        以上三個方面,與分類知識庫相關的只有第二個方面,即分類知識庫中存在分類錯誤現(xiàn)象。實際上,分類知識庫來源于專業(yè)標引人員的標引結果,是一種標引經(jīng)驗的積累成果。如何從龐大的經(jīng)驗庫中去偽存真、去粗取精,獲得使用于自動分類的知識庫,是一項比較有探索意義的課題。

        本書系統(tǒng)化地說明了知識庫的構建過程,說明了構建分類知識庫的重要意義。

        從實驗結果可以看出:在數(shù)量上,分類知識庫比《中分表》多,分類知識庫具有較好的文獻保障,更新容易;在質量上,分類知識庫用作文本自動標引和自動分類用知識庫,具有很高的質量保證;此外,從功能上還可以看出,分類知識庫較《中分表》應用更方便,擴充性強,可滿足實際需要。另一方面,對于分類知識庫的質量控制還有待于進一步深入研究。在下一節(jié)中,我們就利用篇名知識庫,進行了初步的研究,以期擴充分類知識庫的功能,提高分類的效率和準確率。此外,通過對知識庫進行人機結合審定的方式,也可以提高知識庫的質量。

        免責聲明:以上內(nèi)容源自網(wǎng)絡,版權歸原作者所有,如有侵犯您的原創(chuàng)版權請告知,我們將盡快刪除相關內(nèi)容。

        我要反饋