確定財(cái)稅詞表選詞依據(jù)
5.2.2 確定財(cái)稅詞表選詞依據(jù)
財(cái)稅詞表中的詞匯分為兩種:內(nèi)核詞匯和外殼詞匯。內(nèi)核部分詞匯用以受控標(biāo)引和檢索,同時(shí)起到控制外殼詞匯作用。對(duì)于已經(jīng)收集完畢的財(cái)稅關(guān)鍵詞詞典,從中選取出內(nèi)核詞匯并進(jìn)一步識(shí)別詞間關(guān)系用以構(gòu)建關(guān)系緊密的內(nèi)核詞表,實(shí)現(xiàn)以上功能。自動(dòng)構(gòu)建敘詞表,目前有三種選詞方法[5]:
①通過(guò)詞頻選詞,把詞匯表中的詞按詞頻分成三類(lèi):高頻詞、中頻詞和低頻詞。Salton和McGill經(jīng)過(guò)討論研究認(rèn)為,中頻詞是優(yōu)良的標(biāo)引和檢索詞匯,可以收錄到詞表中。
②通過(guò)區(qū)分值(Discrimination Value,DV)選詞,區(qū)分值測(cè)量一個(gè)詞匯區(qū)分文獻(xiàn)集合中的文獻(xiàn)的能力。詞匯的區(qū)分值越高,它作為標(biāo)引用詞的價(jià)值就越高。其中區(qū)分值等于去掉詞匯k后計(jì)算的平均文獻(xiàn)相似度減去帶有詞匯k的平均文獻(xiàn)相似度的差。即DV(k)=(Average Similarity without k)—(Average Similarity with k)。區(qū)分能力強(qiáng)的詞匯,由于它的存在明顯降低平均文獻(xiàn)相似度,其DV值為正值。相反,區(qū)分能力差的中性詞匯,對(duì)平均相似度幾乎無(wú)影響。
③通過(guò)泊松分布選詞,泊松分布模型用以模擬離散隨機(jī)分布現(xiàn)象。對(duì)泊松分布模型研究的一個(gè)重要結(jié)論是,不重要的詞具有單值泊松分布,而重要詞匯的分布則明顯偏離泊松分布。后來(lái)這個(gè)結(jié)論作為詞表選詞的依據(jù),用以識(shí)別領(lǐng)域內(nèi)的重要詞匯。
其中后兩種選詞方法需要經(jīng)過(guò)大量統(tǒng)計(jì)實(shí)現(xiàn),而且尚處于實(shí)驗(yàn)階段,難以普及。根據(jù)實(shí)際需要,本文內(nèi)核部分詞匯收詞時(shí)需要綜合考慮多種因素,主要以詞頻控制為依據(jù),兼顧詞長(zhǎng)、詞義、詞類(lèi)等多種因素,并經(jīng)過(guò)人工核定收詞。選詞時(shí)遵循以下控制原則:
①詞長(zhǎng)控制。選定的主題詞應(yīng)詞形簡(jiǎn)練、概念明確。網(wǎng)絡(luò)環(huán)境中詞表容量不再成為問(wèn)題,收詞以詞義表達(dá)明確為適中,以前需組配表達(dá)的概念,可適當(dāng)收錄,以提高詞表專指度。
②詞頻控制。具有一定詞頻是取舍該詞的基本判斷依據(jù),符合文獻(xiàn)保障原則。內(nèi)核表中詞匯詞頻應(yīng)大于45。對(duì)于詞頻較低的新財(cái)稅概念,考慮到今后的發(fā)展,部分重要詞匯收入內(nèi)核表,其他收入外殼表中。對(duì)詞頻的統(tǒng)計(jì)是在關(guān)聯(lián)概念空間生成過(guò)程中標(biāo)引階段實(shí)現(xiàn)的,在正排檔的基礎(chǔ)上統(tǒng)計(jì)詞匯在訓(xùn)練庫(kù)中的總詞頻,并按詞頻從大到小排列,得到總詞頻表。
③詞類(lèi)控制。選定的詞以名詞和名詞詞組為主,適當(dāng)收錄一些必要的動(dòng)詞。
④詞義控制。盡量收錄同一概念的不同表達(dá)詞匯。
根據(jù)詞頻統(tǒng)計(jì)結(jié)合人工判定的方法共選取內(nèi)核主題詞1 272個(gè),關(guān)鍵詞詞典中的其余詞匯歸入到外殼關(guān)鍵詞部分。
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。