《中圖法》知識(shí)庫(kù)的應(yīng)用
7.4 《中圖法》知識(shí)庫(kù)的應(yīng)用
知識(shí)庫(kù)以《中圖法》為框架,以人工標(biāo)引經(jīng)驗(yàn)為基礎(chǔ),通過(guò)分類檢索語(yǔ)言、主題檢索語(yǔ)言、自然語(yǔ)言之間的兼容轉(zhuǎn)換原理,建立分類號(hào)-主題詞串-關(guān)鍵詞串之間的對(duì)應(yīng)關(guān)系,包含了豐富的詞匯、大量的同義關(guān)系以及詞串與類號(hào)的對(duì)應(yīng)關(guān)系,能夠廣泛地應(yīng)用于中文文獻(xiàn)信息的自動(dòng)標(biāo)引、自動(dòng)分類(歸類),甚至概念檢索上。
(1)利用抽詞詞典和停用詞表進(jìn)行分詞,并借助于同義詞表進(jìn)行主題規(guī)范,實(shí)現(xiàn)中文信息的主題自動(dòng)標(biāo)引。選擇文獻(xiàn)標(biāo)引源,如題名、文摘、作者關(guān)鍵詞、正文、參考文獻(xiàn)等,利用抽詞詞典和停用詞表采用最大正向匹配算法進(jìn)行分詞,統(tǒng)計(jì)詞頻、詞數(shù)、位置權(quán)重進(jìn)行排序輸出標(biāo)引詞串,再結(jié)合同義詞表進(jìn)行主題規(guī)范,給出正式主題詞。
(2)借助分類號(hào)-關(guān)鍵詞串對(duì)應(yīng)表、同義詞表,以及地名表、時(shí)代表、文獻(xiàn)類型表實(shí)現(xiàn)中文文獻(xiàn)信息的自動(dòng)分類。具體技術(shù)流程參見(jiàn)圖7-3。自動(dòng)分類是一種詞串定類和概念定類,是一種基于實(shí)例的自動(dòng)分類方法。首先,它是詞串定類,而不是單詞定類,提高了分類的正確性。其次,它是概念定類,在標(biāo)引詞串與分類知識(shí)庫(kù)中詞串進(jìn)行匹配時(shí),先進(jìn)行字面相似度的計(jì)算,對(duì)于未能給出類號(hào)的記錄再利用同義詞表和義類詞典進(jìn)行語(yǔ)義相似度的計(jì)算,從而在兼顧正確性和速度的前提下,給出最佳的《中圖法》主類號(hào)。如采用KNN方法,也可給出兩個(gè)或多個(gè)類號(hào)。第三,它是一種基于實(shí)例(即標(biāo)引經(jīng)驗(yàn))的分類方法,分類知識(shí)庫(kù)中的每一條記錄都是一個(gè)標(biāo)引實(shí)例,與其相匹配則可確定其分類結(jié)果。第四,采用地名表、時(shí)代表、文獻(xiàn)類型表對(duì)標(biāo)引詞串中的地名、時(shí)代、文獻(xiàn)類型等分面歸類,以改進(jìn)《中圖法》類目體系在自動(dòng)分類上的弊端。
圖7-3 自動(dòng)標(biāo)引和自動(dòng)分類系統(tǒng)設(shè)計(jì)流程[7]
(3)在自動(dòng)標(biāo)引和自動(dòng)分類結(jié)果的基礎(chǔ)上,并結(jié)合同義詞表,實(shí)現(xiàn)中文文獻(xiàn)信息的概念檢索和多途徑檢索。從標(biāo)引的角度看,本系統(tǒng)給出的主題標(biāo)引結(jié)果包括了關(guān)鍵詞串和主題詞串兩個(gè)部分,這使得用戶一方面可以從關(guān)鍵詞和主題詞兩個(gè)途徑進(jìn)行檢索,另一方面能夠?qū)崿F(xiàn)詞串檢索而不僅僅是單個(gè)詞的檢索;此外還可以結(jié)合同義詞表增加檢索入口以及利用義類詞典實(shí)現(xiàn)概念檢索,從而提高檢索的效率。從分類的角度看,分類結(jié)果包括了主類號(hào)以及地名、時(shí)代、文獻(xiàn)類型等各個(gè)組面的復(fù)分號(hào),用戶可以從主題、地名、時(shí)代、文獻(xiàn)類型等多個(gè)途徑進(jìn)行文獻(xiàn)信息的分類檢索。
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。