自動標(biāo)引結(jié)果測評
8.3 自動標(biāo)引結(jié)果測評
重新下載財(cái)稅網(wǎng)頁100篇,利用財(cái)稅自然語言敘詞表對其進(jìn)行自動標(biāo)引,并提取權(quán)重最高的前6個(gè)詞匯作為標(biāo)引結(jié)果,與人工自由標(biāo)引結(jié)果從標(biāo)引詞的相符程度、先組度和標(biāo)引深度三個(gè)方面進(jìn)行量化對比,據(jù)此考察兩種標(biāo)引方式的優(yōu)劣以及財(cái)稅詞表的性能。
(1)相符程度比較
以人工自由標(biāo)引結(jié)果為參照標(biāo)準(zhǔn),比較自動標(biāo)引結(jié)果的優(yōu)劣。按照自動標(biāo)引結(jié)果與人工自由標(biāo)引結(jié)果的相符程度,分為以下幾種情況:
①完全相同詞:兩個(gè)標(biāo)引詞完全相同。
②同義準(zhǔn)同義詞:兩個(gè)詞是同義詞、近義詞或準(zhǔn)同義詞,如:“對外貿(mào)易”與“對外經(jīng)濟(jì)貿(mào)易”,“車購稅”與“車輛購置稅”等。
③等級關(guān)系詞:兩個(gè)詞在概念上具有包含關(guān)系,如:“銀行”與“人民銀行”,“酒類產(chǎn)品”與“白酒”等。
④組配關(guān)系詞:自動標(biāo)引結(jié)果中,兩個(gè)或兩個(gè)以上標(biāo)引詞組配后與自由標(biāo)引結(jié)果中某詞匯表達(dá)相同概念,如“貨運(yùn)發(fā)票”與“貨物運(yùn)輸業(yè)+運(yùn)輸發(fā)票”,“申報(bào)軟件”與“納稅申報(bào)+軟件”等。
⑤漏標(biāo)詞匯:自由標(biāo)引結(jié)果中存在自動標(biāo)引沒有標(biāo)出的概念和詞匯的數(shù)量,即自由標(biāo)引詞匯中排除自動標(biāo)引詞匯具有以上關(guān)系外的詞匯。
⑥新增加詞匯:自動標(biāo)引結(jié)果在自由標(biāo)引結(jié)果中未找到相對應(yīng)關(guān)系的詞匯數(shù)量。
經(jīng)過統(tǒng)計(jì),人工自由標(biāo)引共345個(gè)詞匯,其中對一篇文獻(xiàn)最少標(biāo)引2個(gè)詞,最多標(biāo)引7個(gè)詞。按照上述標(biāo)準(zhǔn),相對人工自由標(biāo)引結(jié)果,自動標(biāo)引結(jié)果的相符度比較結(jié)果如下表:
表8-1 標(biāo)引結(jié)果相符度比較
從上表統(tǒng)計(jì)結(jié)果看出,如果以相同詞匯、同義準(zhǔn)同義詞和組配關(guān)系詞都記做正確的自動標(biāo)引結(jié)果,那么自動標(biāo)引的正確率為59.42%。自動標(biāo)引結(jié)果漏標(biāo)引81個(gè)詞,占23.48%,可見是影響以上正確率的重要原因之一。造成漏標(biāo)引的原因有以下幾點(diǎn):①漏標(biāo)詞在自動標(biāo)引結(jié)果中,但因其權(quán)重較低,沒有被選為自動標(biāo)引最終結(jié)果;②漏標(biāo)詞中存在地名詞和人名詞,不是財(cái)稅詞表收詞范圍;③漏標(biāo)詞是詞表沒有收錄的財(cái)稅詞匯。考察實(shí)際漏標(biāo)引詞匯記錄發(fā)現(xiàn),大部分漏標(biāo)引詞匯屬于前兩種情況,這說明財(cái)稅自然語言敘詞表內(nèi)核部分收詞較為完備,另外自動標(biāo)引性能尚可。
(2)標(biāo)引先組度比較
先組度指詞表中詞匯的先組程度,可按詞長加以測度。先組度是影響檢索系統(tǒng)的檢準(zhǔn)率的重要因素,先組度越高,會得到越高的檢準(zhǔn)率。以單個(gè)詞含有字符的個(gè)數(shù)為標(biāo)準(zhǔn),自由標(biāo)引與自動標(biāo)引結(jié)果的先組度統(tǒng)計(jì)數(shù)據(jù)如表8-2:
表8-2 標(biāo)引先組度比較
從表8-2統(tǒng)計(jì)結(jié)果看,自動標(biāo)引結(jié)果的平均詞長為3.61個(gè)字符,自由標(biāo)引結(jié)果的平均詞長為4.55個(gè)字符,后者標(biāo)引先組度更高些。分析其原因,自由標(biāo)引時(shí)能夠標(biāo)引出文獻(xiàn)中出現(xiàn)的更專指的詞,如考察自由標(biāo)引結(jié)果中詞長大于等于10個(gè)字符的6個(gè)詞均為專有名詞,如“中國聯(lián)合通信有限公司”、“城市房地產(chǎn)稅暫行條例”、“中國石油化工股份有限公司”等,而機(jī)器自動標(biāo)引時(shí)以財(cái)稅詞表中的詞匯作為主題標(biāo)識,因詞表收詞經(jīng)過人工控制,不可能羅列以上專有名詞,對以上其標(biāo)引結(jié)果為“公司”和“城市房地產(chǎn)+暫行條例”。
(3)標(biāo)引深度
標(biāo)引深度指標(biāo)引一篇文獻(xiàn)所用的檢索標(biāo)識的數(shù)量,從對文獻(xiàn)主題內(nèi)容揭示的廣度來衡量標(biāo)引質(zhì)量。標(biāo)引深度越高,檢索系統(tǒng)提供給用戶的檢索入口越多,在一個(gè)標(biāo)識下聚集的文獻(xiàn)數(shù)量越多,查全文獻(xiàn)的可能性也隨之增大,從而提高了檢全率。同時(shí),深標(biāo)引意味著對文獻(xiàn)主題內(nèi)容表達(dá)更具體和專指,文獻(xiàn)的檢準(zhǔn)率也會有所提高。根據(jù)以下公式計(jì)算平均標(biāo)引深度:
經(jīng)過統(tǒng)計(jì),自由標(biāo)引深度為3.45,自動標(biāo)引深度為6,后者標(biāo)引深度較高。對100篇文獻(xiàn)的標(biāo)引結(jié)果中,相對人工標(biāo)引,后者多標(biāo)引出328個(gè)詞匯,對文獻(xiàn)主題揭示更全面,提供更多的檢索入口。
總之,自由標(biāo)引和自動標(biāo)引各有所長。自由標(biāo)引時(shí),人工析出文獻(xiàn)主題并轉(zhuǎn)換為自由詞進(jìn)行標(biāo)引,更能準(zhǔn)確表達(dá)文獻(xiàn)主題,標(biāo)引先組度高,但標(biāo)引速度慢,成本高,同一篇文獻(xiàn)由不同標(biāo)引人員操作,得到的標(biāo)引結(jié)果可能大相徑庭。機(jī)器自動標(biāo)引對比人工自由標(biāo)引結(jié)果正確率接近60%,而且速度快,標(biāo)引一致性好,標(biāo)引深度較高,能夠提供更多檢索入口,如果在性能上再加以改進(jìn),可以代替人工自由標(biāo)引,更適用于網(wǎng)絡(luò)信息組織。
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。