精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁 ? 理論教育 ?文本自動(dòng)分類系統(tǒng)的測(cè)評(píng)

        文本自動(dòng)分類系統(tǒng)的測(cè)評(píng)

        時(shí)間:2023-02-27 理論教育 版權(quán)反饋
        【摘要】:8.2 文本自動(dòng)分類系統(tǒng)的測(cè)評(píng)測(cè)評(píng)數(shù)據(jù)說明本書以150篇html文本作為測(cè)試文本,對(duì)文本自動(dòng)標(biāo)引和自動(dòng)分類系統(tǒng)進(jìn)行測(cè)試。此外,在確定分類知識(shí)庫規(guī)模時(shí),依據(jù)本系統(tǒng)對(duì)從華泰證券網(wǎng)[4]、中國財(cái)經(jīng)網(wǎng)[5]采集到的100篇Web頁面進(jìn)行了標(biāo)引測(cè)試。系統(tǒng)測(cè)評(píng)方法與結(jié)果本書采用將系統(tǒng)挖掘結(jié)果與自動(dòng)標(biāo)引和手工分類的結(jié)果進(jìn)行比較的方法來進(jìn)行質(zhì)量測(cè)評(píng)。進(jìn)行主題提取的效率要遠(yuǎn)遠(yuǎn)高于自動(dòng)標(biāo)引,前者的速度約為后者的24倍。
        文本自動(dòng)分類系統(tǒng)的測(cè)評(píng)_文本自動(dòng)標(biāo)引與自動(dòng)分類研究

        8.2 文本自動(dòng)分類系統(tǒng)的測(cè)評(píng)

        (1)測(cè)評(píng)數(shù)據(jù)說明

        本書以150篇html文本作為測(cè)試文本,對(duì)文本自動(dòng)標(biāo)引和自動(dòng)分類系統(tǒng)進(jìn)行測(cè)試。測(cè)試文本都是與經(jīng)濟(jì)類主題相關(guān)的Web頁面,是從中國經(jīng)濟(jì)信息網(wǎng)[1]、中國資訊行[2]、中國經(jīng)濟(jì)網(wǎng)[3]手工采集得到的。此外,在確定分類知識(shí)庫規(guī)模時(shí),依據(jù)本系統(tǒng)對(duì)從華泰證券網(wǎng)[4]、中國財(cái)經(jīng)網(wǎng)[5]采集到的100篇Web頁面進(jìn)行了標(biāo)引測(cè)試。

        (2)系統(tǒng)測(cè)評(píng)方法與結(jié)果

        本書采用將系統(tǒng)挖掘結(jié)果與自動(dòng)標(biāo)引和手工分類的結(jié)果進(jìn)行比較的方法來進(jìn)行質(zhì)量測(cè)評(píng)。在測(cè)評(píng)本系統(tǒng)的同時(shí),為了同時(shí)驗(yàn)證第4章提出來的權(quán)重方案的可行性及全文挖掘和重要標(biāo)引源挖掘的比較,本書提出如下四種方案來進(jìn)行測(cè)試:

        方案Ⅰ:權(quán)重方案為:sd∶bt∶html∶ds1∶title∶dw1∶ds2∶dw2∶wd∶ds3∶qt∶dw3=5∶5∶5∶4∶4∶4∶2∶2∶2∶2∶2∶2。

        方案Ⅱ:title∶html∶sd∶段落首句∶網(wǎng)頁其余正文=5∶3∶3∶2∶1[6]。

        方案Ⅲ:標(biāo)引源由sd、bt、title、wd、html組成,采用詞頻加權(quán)統(tǒng)計(jì)法。權(quán)重方案為:sd∶bt∶html∶title∶wd=5∶5∶5∶4∶2。該方案是方案Ⅰ的簡(jiǎn)化,進(jìn)行此方案測(cè)試的目的是分析這幾個(gè)主題表達(dá)能力比較強(qiáng)的標(biāo)引源替代全文進(jìn)行挖掘的可能性。

        方案Ⅳ:標(biāo)引源由首段sd、bt、title、wd、html組成,不考慮位置因素,而是直接采用詞頻統(tǒng)計(jì)的方法進(jìn)行挖掘。

        根據(jù)以上四種方案,采集中國經(jīng)濟(jì)信息網(wǎng)、中國資訊行、中國經(jīng)濟(jì)網(wǎng)上的150篇Web頁面進(jìn)行了自動(dòng)標(biāo)引和分類,同時(shí)進(jìn)行自動(dòng)標(biāo)引和人工標(biāo)引,比較處理結(jié)果分別如表8-1、表8-2、表8-3、表8-4所示。

        表8-1 文本自動(dòng)標(biāo)引和分類(全文)、自動(dòng)標(biāo)引結(jié)果比較表

        img98

        表8-2 自動(dòng)分類(全文)與人工分類結(jié)果比較表

        img99

        注:分類結(jié)果錯(cuò)誤是指分類號(hào)兩級(jí)及兩級(jí)以下相符,如F097.12與F293.3;分類正確是指分類號(hào)五級(jí)或五級(jí)以上相符,如F830.4與F830.42;其他相符情況都認(rèn)為以上分類基本正確,如F830.3與F830.48。

        表8-3 文本自動(dòng)標(biāo)引和分類(簡(jiǎn)化)、自動(dòng)標(biāo)引結(jié)果比較表

        img100

        表8-4 自動(dòng)分類(簡(jiǎn)化)與人工分類結(jié)果比較表

        img101

        從表8-1可以看出,挖掘系統(tǒng)對(duì)主題的提取個(gè)數(shù),即通常所說的平均標(biāo)引深度為4.93,略高于自動(dòng)標(biāo)引的深度。但在系統(tǒng)的運(yùn)行中,完全可以設(shè)定標(biāo)引深度。

        進(jìn)行主題提取的效率要遠(yuǎn)遠(yuǎn)高于自動(dòng)標(biāo)引,前者的速度約為后者的24倍。

        從表8-2可以看出,采用挖掘系統(tǒng)進(jìn)行自動(dòng)分類,正確率為84.17%(包括基本正確與正確兩個(gè)部分的總和,下同),分類的結(jié)果是可以接受的。

        從表8-1和表8-2可以看出,無論是進(jìn)行主題提取還是自動(dòng)分類,方案Ⅰ的結(jié)果都略優(yōu)于方案Ⅱ,如,自動(dòng)分類結(jié)果,采用方案Ⅰ時(shí)正確率為84.17%,而通過方案Ⅱ結(jié)果則為82.73%。這說明了本書第5章制定的權(quán)重方案是比較合理的。

        另外,由表8-3和表8-4可以看出,簡(jiǎn)化標(biāo)引源后,主題提取和自動(dòng)分類的結(jié)果還是可以讓人接受的,其中自動(dòng)分類正確率為75%,這說明了可以在保證一定的正確率的基礎(chǔ)上,利用簡(jiǎn)化標(biāo)引源的方式,提高挖掘系統(tǒng)的運(yùn)行效率。而當(dāng)前幾乎所有的檢索系統(tǒng)都是對(duì)全文進(jìn)行沒有考慮具體位置權(quán)重或者只提取文本前幾個(gè)段落,以此來發(fā)現(xiàn)文本的特征詞,這樣做是不太合理的。

        利用方案Ⅳ進(jìn)行分類,正確率為72.18%,這也進(jìn)一步驗(yàn)證了權(quán)重方案Ⅰ的合理性。

        由以上分析可以得出:系統(tǒng)從系統(tǒng)效率、兼容性及系統(tǒng)挖掘質(zhì)量上來看,都是可以接受的。

        免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋