相似度系數(shù)
6.5.1 相似度系數(shù)
相似度系數(shù)(Q)可以直接計(jì)算人工標(biāo)引關(guān)鍵詞和自動(dòng)抽取關(guān)鍵詞的匹配程度,a表示自動(dòng)抽取關(guān)鍵詞的數(shù)量,m表示人工標(biāo)引關(guān)鍵詞的數(shù)量,c表示兩者相同的關(guān)鍵詞數(shù)量。
實(shí)驗(yàn)數(shù)據(jù)集由上海復(fù)旦大學(xué)李榮陸提供[2],其中1 350篇含有人工標(biāo)引關(guān)鍵詞的文獻(xiàn)用作實(shí)驗(yàn)數(shù)據(jù)集。人工標(biāo)引出關(guān)鍵詞共有5 091個(gè),平均每篇文獻(xiàn)3.8個(gè)關(guān)鍵詞。用GKEY方法共抽取出5 316個(gè)關(guān)鍵詞,平均每篇文獻(xiàn)4.2個(gè)關(guān)鍵詞,其中K取值為1。下面考察兩種方法標(biāo)引結(jié)果的相似度系數(shù),相似度計(jì)算針對(duì)整個(gè)數(shù)據(jù)集而不是單篇文獻(xiàn)。
完全匹配是指兩種方法標(biāo)引結(jié)果中完全相同的關(guān)鍵詞;部分匹配是指由兩種方法標(biāo)引出的關(guān)鍵詞,雖然詞義相同或者相近,但是有一兩個(gè)字符不相匹配。表6-2詳細(xì)描述了兩種方法標(biāo)引結(jié)果的匹配程度。
表6-2 兩種方法標(biāo)引結(jié)果的相似度系數(shù)
續(xù)表 6-2
實(shí)驗(yàn)結(jié)果中,絕大多數(shù)自動(dòng)抽取的關(guān)鍵詞都具有正確的分詞邊界,錯(cuò)誤率遠(yuǎn)遠(yuǎn)低于Tseng等的實(shí)驗(yàn)結(jié)果。從查全率和查準(zhǔn)率的角度看,GKEY方法是一種性能較為優(yōu)良的方法。相似度系數(shù)呈明顯的正態(tài)分布,雙字詞、三字詞和四字詞具有較高的相似度,比較符合漢語中詞匯的分布規(guī)律。
GKEY方法對(duì)多字關(guān)鍵詞的抽取非常有效,但對(duì)單字關(guān)鍵詞的識(shí)別能力還較弱。原因在于:部分自動(dòng)抽取的關(guān)鍵詞為比較專指的特定專業(yè)詞匯,而人工標(biāo)引則往往采用比較泛指的詞;30.3%左右的人工標(biāo)引關(guān)鍵詞為來自文本之外的詞匯(主要是同義詞、廣義詞、狹義詞或者相關(guān)詞);實(shí)驗(yàn)數(shù)據(jù)集中的文獻(xiàn)來源于不同的期刊和報(bào)紙,沒有遵循統(tǒng)一的標(biāo)引規(guī)范。特別是許多沒有檢索意義的停用詞也被用作關(guān)鍵詞,而這些詞在自動(dòng)抽取實(shí)驗(yàn)中被篩選掉。
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。