常規(guī)方法存在的問題
6.2.2 常規(guī)方法存在的問題
(1)樣本規(guī)模小
由于樣本的規(guī)模小,具體會產(chǎn)生三個問題,分別說明如下:
①測試結(jié)果置信度小
前人對關(guān)鍵詞-分類號的相關(guān)性研究中,都是以某一個小類的數(shù)據(jù)作為樣本,在進行實驗統(tǒng)計比較分析時,數(shù)據(jù)量很小,測定結(jié)果的置信度就太小。例如,張雪英利用MI和Log L方法研究相關(guān)度時,樣本僅為F83、F82類,樣本空間為181023,而測試樣本空間為203,占總樣本比率僅為0.114%,很難說明兩種方法的優(yōu)劣;薛鵬軍在對《中國圖書檢索系統(tǒng)》數(shù)據(jù)(MARC)的分類號進行控制時,采用MI和Log L方法進行對比實驗,其樣本空間僅為47,置信度太小。
②最大似然估計(MLE)誤差大
由于樣本規(guī)模太小,使得P(A|B)、MI、Log L等方法的測量誤差加大,影響實驗結(jié)果。
最大似然估計的原理是:假設(shè)一個單詞W在語料庫中出現(xiàn)的概率P(W)符合二項分布規(guī)律,則當(dāng)語料庫容量N足夠大時,可以期望單詞W將出現(xiàn)N*P(W)次,從而得到P(W)的估計值為:
其中:f(W)為單詞W在語料庫中出現(xiàn)的頻度。
這種方法簡單而實用,在許多情況下都能得到比較合理的估計。但是,如果樣本規(guī)模太小,一個關(guān)鍵詞在語料庫(標(biāo)引經(jīng)驗數(shù)據(jù))中的概率將會發(fā)生偏離二項分布情況,使得公式(6-1)成立的誤差加大,從而影響實驗結(jié)果。
③產(chǎn)生“零概率”事件
由于樣本規(guī)模太小,即某一類事件在當(dāng)前小樣本沒有發(fā)生,會使得某些關(guān)鍵詞與分類號的對應(yīng)情況不會發(fā)生,產(chǎn)生“零概率”事件。在標(biāo)引經(jīng)驗知識庫中,由于關(guān)鍵詞與分類號存在多種不確定的關(guān)系,如一對一、一對多、多對多等關(guān)系,一個關(guān)鍵詞可能會分散在若干個跨度很大的類別中,若樣本過小,這種現(xiàn)象的發(fā)生頻率很小,會影響關(guān)鍵詞與分類號的真實對應(yīng)情況。
在文本自動標(biāo)引和分類系統(tǒng)中,中文經(jīng)濟類標(biāo)引經(jīng)驗庫規(guī)模達200萬,測試樣本空間也將增大,這樣不但可以提高結(jié)果置信度,同時最大似然估計誤差也會減小,“零概率”事件會大大減少。
(2)忽略了測量方法之間的聯(lián)系
在利用P(A|B)方法、MI方法以及Log L方法時,沒有考察這幾個方法之間的聯(lián)系。實際上,它們是存在一定的聯(lián)系的。例如:假設(shè)a為分類號與關(guān)鍵詞同時出現(xiàn)的事件的概率,b為關(guān)鍵詞出現(xiàn)而分類號不出現(xiàn)的事件的概率,c為分類號出現(xiàn)但關(guān)鍵詞不出現(xiàn)的事件的概率,d為兩者都不出現(xiàn)的事件的概率,則有:
其中:P(B)為分類號出現(xiàn)概率;N為樣本空間大小。
從公式(6-2)~(6-4)可以看出,三種度量方法是有一定的聯(lián)系的,它們都和分類號與關(guān)鍵詞的并發(fā)概率(或共現(xiàn)概率),即a,有很大關(guān)系。因此,在考察分類號與關(guān)鍵詞的相關(guān)性時可以綜合這些方法,加大a的權(quán)值,以發(fā)現(xiàn)最相關(guān)的關(guān)聯(lián)關(guān)系。
(3)關(guān)鍵詞-分類號匹配規(guī)則存在的問題
通過對標(biāo)引經(jīng)驗知識庫中分類號和關(guān)鍵詞對應(yīng)形式的考察,發(fā)現(xiàn)分類號和關(guān)鍵詞對應(yīng)的形式有如下幾個特點:
①標(biāo)引質(zhì)量差異大
中文MARC采用《中國圖書館分類法》(CLC)和《科圖法》進行分類標(biāo)引,采用《漢表主題詞表》或《中國分類主題詞表》(《中分表》)進行主題詞串形式的主題標(biāo)引,MARC標(biāo)引數(shù)據(jù)標(biāo)引模式較固定、可靠,標(biāo)引質(zhì)量較高;《中文科技期刊數(shù)據(jù)庫》(《中刊庫》)使用CLC進行分類標(biāo)引,采用散標(biāo)形式的關(guān)鍵詞進行主題標(biāo)引;《中文社科報刊篇名數(shù)據(jù)庫》(《社科庫》)采用CLC進行分類標(biāo)引,參照《中分表》,用詞串形式進行主題標(biāo)引。
舉例說明如下:
表6-1 標(biāo)引經(jīng)驗知識庫中的關(guān)鍵詞—分類對應(yīng)形式舉例
從表6-1可以看出,MARC標(biāo)引質(zhì)量可靠性較高,而《中刊庫》、《社科庫》的標(biāo)引質(zhì)量不高,并且存在很多的不規(guī)范的標(biāo)引,如《中刊庫》中,對題名為《論我國三資企業(yè)轉(zhuǎn)讓定價避稅方式》的文本的標(biāo)引結(jié)果為:“中國#三資企業(yè)#轉(zhuǎn)讓定價#避稅方式”。顯然“中國”這一標(biāo)引詞排序不符合顯著性規(guī)則,應(yīng)將其排在關(guān)鍵詞序列最后;《社科庫》中對題名為《中國興辦“三資”企業(yè)中存在的若干問題及其對策》的文本的標(biāo)引結(jié)果為:“三資企業(yè)#問題#對策#中國”,顯然應(yīng)將其中的通用詞“問題”、“對策”過濾掉。
②標(biāo)引關(guān)鍵詞排序無明顯規(guī)律
通過對《中刊庫》、《社科庫》和其他語料庫的標(biāo)引結(jié)果的調(diào)查統(tǒng)計發(fā)現(xiàn):標(biāo)引關(guān)鍵詞對主題表達能力的大小與其在關(guān)鍵詞序列中的位置無明顯規(guī)律。薛鵬軍在進行關(guān)鍵詞與分類號的匹配規(guī)則研究時,確定匹配規(guī)則為:依據(jù)標(biāo)引詞(串)所含詞位置的不同,給定其權(quán)重分別為0.4、0.3、0.2、0.1,即第一個詞位置權(quán)重為0.4,第二個詞位置權(quán)重為0.3,其余以此類推[6]。顯然,這一匹配規(guī)則有悖于真實情況,并且尚有其他不合理之處。權(quán)重方案應(yīng)為一均衡體系,即權(quán)重之和為1。他給出的權(quán)重方案是針對4個關(guān)鍵詞以內(nèi)的情況,對于1、2、3個關(guān)鍵詞的情況是不適用的,并且,如前所說,本身權(quán)重比率方案還是基于主觀認識,缺乏說服力。張雪英等是采用四種模式,即:分類號與標(biāo)引詞意一一匹配(1∶1)、分類號與所有兩個相鄰詞組成的詞串進行匹配(1∶2)、分類號與所有三個相鄰詞組成的詞串進行匹配(1∶3)、分類號與所有四個相鄰詞組成的詞串進行匹配(1∶4),來進行分類號與標(biāo)引詞的匹配。顯然,這種方法沒有考慮到不同位置、不同詞長的關(guān)鍵詞對主題的表達能力是不同的。因此必須設(shè)計一個比較科學(xué)的權(quán)重方案。
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。