精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁 ? 理論教育 ?《中圖法》知識庫的構(gòu)建技術(shù)

        《中圖法》知識庫的構(gòu)建技術(shù)

        時間:2023-02-27 理論教育 版權(quán)反饋
        【摘要】:針對上述難題,《中圖法》知識庫在其編制和使用過程中采用以下幾個關(guān)鍵技術(shù)[4][5]:采用計算語言學的方法完成詞表的構(gòu)建。在知識庫中以分類號-關(guān)鍵詞串對應(yīng)表的構(gòu)建最為關(guān)鍵,以計算語言學的方法來確定類號與詞串之間的對應(yīng)關(guān)系又是該對應(yīng)表構(gòu)造的關(guān)鍵技術(shù)?!锻x詞詞林》以單元詞為主,其中大多可以作為構(gòu)成復(fù)合詞的詞素。
        《中圖法》知識庫的構(gòu)建技術(shù)_情報檢索語言的兼容轉(zhuǎn)換

        7.3 《中圖法》知識庫的構(gòu)建技術(shù)

        《中圖法》知識庫的構(gòu)建面臨以下幾個難題:

        (1)異構(gòu)數(shù)據(jù)的整合。知識庫原始數(shù)據(jù)主要來源于四類數(shù)據(jù):①原始類表數(shù)據(jù),如《中圖法》類目索引、《中分表》中分類號-主題詞對應(yīng)表;②規(guī)范標引數(shù)據(jù),即用《中圖法》和《漢表》規(guī)范標引的書目數(shù)據(jù),如上海圖書館的《全國報刊索引數(shù)據(jù)庫》、北京圖書館、上海圖書館等的中文圖書MARC數(shù)據(jù);③自由標引數(shù)據(jù),即包含《中圖法》類號和散標自由詞的書目數(shù)據(jù),如重慶維普的《中文科技期刊數(shù)據(jù)庫》;④題名庫數(shù)據(jù),從文獻數(shù)據(jù)庫的標引數(shù)據(jù)中取出題名和分類號構(gòu)建而成。這四種數(shù)據(jù)描述的格式不同,有的是MARC,有的是文本,有的是數(shù)據(jù)表,詞串之間的間隔符有空格、短橫、冒號等還有全半角之分。如何對這些數(shù)據(jù)進行整合,構(gòu)建原始庫,是首先要解決的問題。

        (2)一對多、多對多關(guān)系的篩選。原始數(shù)據(jù)中分類號與主題詞或詞串之間包含一對多,多對一和多對多的關(guān)系,而本系統(tǒng)中必須設(shè)法為每一個詞串確定一個唯一的分類號。

        (3)標引詞串與知識庫中的詞串的相符性比較。實際上二者完全匹配的幾率是比較低的,所以本系統(tǒng)采用詞匯相似度計算來實現(xiàn)概念標引、概念定類。如何從語義的角度來比較兩個詞或詞串之間的相似度,而不是單純從字面角度匹配,是我們通過《中圖法》知識庫實現(xiàn)主題規(guī)范和自動分類亟須解決的難題。

        針對上述難題,《中圖法》知識庫在其編制和使用過程中采用以下幾個關(guān)鍵技術(shù)[4][5]

        (1)采用計算語言學的方法完成詞表的構(gòu)建。知識庫原始數(shù)據(jù)主要來源于上述四類數(shù)據(jù),首先要對這四類數(shù)據(jù)進行手工采集合并、刪錯去重,構(gòu)建出原始庫。原始庫中包括類號與類名詞、類號與主題詞、類號與關(guān)鍵詞的對應(yīng),從中分別抽取語詞以及類號與語詞的對應(yīng)來構(gòu)建知識庫中的詞表和詞典。在知識庫中以分類號-關(guān)鍵詞串對應(yīng)表的構(gòu)建最為關(guān)鍵,以計算語言學的方法來確定類號與詞串之間的對應(yīng)關(guān)系又是該對應(yīng)表構(gòu)造的關(guān)鍵技術(shù)。主要通過類目頻次、詞串頻次、類號與詞串共現(xiàn)頻次的統(tǒng)計,采用數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的兩個參數(shù)——支持度和置信度來建立類號與詞串的對應(yīng)關(guān)系。

        所謂支持度表示分類號和詞串在整個原始庫中同時出現(xiàn)的頻度,即共現(xiàn)頻次。共現(xiàn)頻次越大表示越多的標引員認可該分類號和詞串之間的概念對應(yīng),那么這樣的標引結(jié)果就可以認為具有普遍的正確性。支持度計算公式如下:

        img183

        其中,P(clc,keyword)表示在原始庫中分類號和詞串同時出現(xiàn)在一條記錄中的概率;可用分類號和詞串的共現(xiàn)頻次freq_gx表示;一般認為,支持度≥2表示該分類號與詞串有概念上的對應(yīng)關(guān)系,即有兩人次以上認可這種對應(yīng)關(guān)系。支持度越大表示這兩者之間概念對應(yīng)關(guān)系成立的可能性越大。置信度則表示在出現(xiàn)該分類號的前提下出現(xiàn)該詞串的概率,計算公式如下:

        img184

        img185

        其中,P(clc,keyword)表示在原始庫中分類號和詞串同時出現(xiàn)在一條記錄中的頻度;即分類號和詞串的共現(xiàn)頻次freq_gx;P(keyword)表示該詞串在整個原始庫中出現(xiàn)的概率;可用該詞串在整個原始庫中出現(xiàn)的頻次freq_keyword表示。同時滿足最小支持度閾值和最小置信度閾值的規(guī)則稱為強規(guī)則。當某一分類號和詞串之間的支持度和置信度分別超過設(shè)定的閾值,則認為兩者之間有很強的關(guān)聯(lián),即概念上的對應(yīng)關(guān)系,以此來建立類號與詞串的概念對應(yīng)關(guān)系。

        (2)通過相關(guān)度度量解決分類號與詞串的多對一和多對多關(guān)系。在原始庫中分類號與詞串之間是一對多、多對一、多對多的關(guān)系,為給每一個詞串確定一個唯一的分類號,需要度量分類號與詞串之間的相關(guān)度。測量分類號與詞串相關(guān)性的方法有多種,如信息對數(shù)量度法(IM)、極大似然法(LogL)、Dice測度等。我們基本采用Dice測度來計算詞串對應(yīng)的最佳類號。

        img186

        其中:Dice表示分類號與詞串的并發(fā)概率,從而確定兩者之間的關(guān)聯(lián)度;P(clc)表示該分類號在整個原始庫中出現(xiàn)的概率,可用其在原始庫中出現(xiàn)的頻次freq_clc表示;P(keyword)表示該詞串在整個原始庫中出現(xiàn)的概率;可用其在原始庫中出現(xiàn)的頻次freq_keyword表示;P(clc,keyword)表示該分類號和詞串在整個原始庫同時出現(xiàn)的概率,可用其共現(xiàn)頻次freq_gx表示。

        在一個詞串對應(yīng)多個分類號的情況下,Dice值最大的記錄表示該記錄對應(yīng)的分類號是該詞串對應(yīng)的最佳類號。

        (3)構(gòu)建義類詞典進行詞相似度的計算。主題標引從關(guān)鍵詞轉(zhuǎn)向正式主題詞、自動分類中詞串相似度匹配以及概念檢索都離不開同義詞的識別,因此需要在《同義詞詞林》[6]的基礎(chǔ)上構(gòu)造一個義類詞典,通過語義編碼從概念上識別同義詞,而不是簡單地通過字面相似度來識別同義詞,是提高系統(tǒng)性能的關(guān)鍵之一。

        《同義詞詞林》是一部按詞匯語義分類的漢語詞典,共14個大類、94個中類、1 428個小類,以樹型結(jié)構(gòu)來表示詞的語義關(guān)系。以它為基礎(chǔ),經(jīng)過適當調(diào)整和編碼,就可以構(gòu)造出一部義類詞典。《同義詞詞林》以單元詞為主,其中大多可以作為構(gòu)成復(fù)合詞的詞素。用它構(gòu)建的義類詞典一方面可以直接識別以單元詞形式出現(xiàn)的同義詞,另一方面以其作為語義工具,可以挖掘出以復(fù)合詞形式出現(xiàn)的同義詞和同義詞組。

        構(gòu)造義類詞典時,首先將詞匯的字面形式按其構(gòu)成詞素分解轉(zhuǎn)換成語義代碼,以《同義詞詞林》分類體系作為語義編碼體系。

        [語義編碼]=>(大類)(中類)(小類)(小組),其中:

        img187

        例如:“商業(yè)”的語義編碼為[Di180203],其對應(yīng)的大類、中類、小類、小組的編號分別為:(D)、(Di)、(Di1802)、(Di180203),其中“D”表示大類“抽象事物”,“Di”表示中類“社會政法”,“Di1802”表示小類Di18“事業(yè)行業(yè)工程”下的詞群“行業(yè)”,“Di180203”則表示小組“商業(yè)”。

        有了義類詞典,就可以對待識別的語詞進行語義分析,把所有的詞素歸入相應(yīng)的語義體系的結(jié)點之中,然后可以計算兩個語詞之間的語義距離,從而識別同義詞和準同義詞,實現(xiàn)從關(guān)鍵詞向主題詞的轉(zhuǎn)換,并計算兩個詞串的相似度實現(xiàn)分類算法。

        免責聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋