自動標(biāo)引算法
8.2.2 自動標(biāo)引算法
在自動賦詞標(biāo)引過程中,關(guān)鍵技術(shù)有自動抽詞算法和標(biāo)引詞權(quán)重設(shè)定:
(1)抽詞技術(shù)
自動分詞是中文自然語言處理首先要解決的問題。目前常用的分詞方法有很多,其中在自動標(biāo)引和自動分類研究中實際應(yīng)用最多、并受到普遍重視的主要有三種:①基于基本語詞切分詞典的切詞方法;②基于領(lǐng)域抽詞詞典的切分;③采用N-gram統(tǒng)計切分法[7]。本系統(tǒng)采用了第二種方法,利用財稅詞表組成的抽詞詞典,采用正向最大匹配算法從文獻(xiàn)中抽取詞匯,規(guī)避分詞瓶頸的困擾。理由是,已經(jīng)構(gòu)建的財稅詞典內(nèi)核詞匯和外殼詞匯可以用來組成抽詞詞典,因財稅詞典收錄了財稅領(lǐng)域的術(shù)語和相關(guān)詞匯,借助它可以從文獻(xiàn)中抽取出相關(guān)的詞匯來表達(dá)文獻(xiàn)主題概念,較第一種方法具有更好的專指性,而第三種方法雖靈活性大,但仍處于實驗階段,需要進(jìn)一步完善和改進(jìn)。
把財稅詞表中的內(nèi)核主題詞部分詞匯和入口詞部分詞匯分別制成抽詞詞典,本系統(tǒng)結(jié)合兩者完成正向最大匹配自動切分算法。該算法的實現(xiàn)原理是:詞典的最大詞長n與待標(biāo)引文獻(xiàn)的n個漢字進(jìn)行預(yù)匹配,匹配成功,則該字段被切分為關(guān)鍵詞;否則,去掉預(yù)匹配字段的最后一個漢字作新的預(yù)匹配字段,再次檢索直至命中。
具體算法如下:
S←待切分的字串;
(2)權(quán)重方案
為了選擇出符合文獻(xiàn)主題的標(biāo)引詞,基于詞典的自動標(biāo)引方法需要對抽取的詞匯進(jìn)行加權(quán)統(tǒng)計,一般綜合考慮詞頻、標(biāo)引源位置和詞長三個因素。對于單篇文獻(xiàn)來說,詞頻較高的詞匯,其詞長越長,專指度越高,包含信息量就越多,是優(yōu)秀的標(biāo)引用詞;同時該詞出現(xiàn)在文獻(xiàn)中不同位置,其對主題的揭示程度也不同。薛鵬軍、章成志等對經(jīng)濟(jì)、心理、教育等類網(wǎng)頁做過大量手工統(tǒng)計調(diào)查工作后認(rèn)為,文獻(xiàn)標(biāo)題、文摘、關(guān)鍵詞、正文之間的權(quán)重可設(shè)為一定比值[8][9]。
夏祖奇在其碩士畢業(yè)論文中根據(jù)以上統(tǒng)計經(jīng)驗把標(biāo)題權(quán)重設(shè)置為5,正文權(quán)重設(shè)為1,并結(jié)合三種因素確定具體加權(quán)方案為[6]:
其中,OccurIn Title為詞Term在標(biāo)題中出現(xiàn)的頻次;OccurI-n Text為詞Term在正文中出現(xiàn)的頻次;Lenth(Term)是一個分段函數(shù),對詞Term的詞長進(jìn)行加權(quán),當(dāng)詞為1個字、2個字時,其值為1;詞為3個字時,其值為1.5;詞為4或5個字時,其值為2;詞長大于5個字時,值為3:
經(jīng)過實驗檢驗,該加權(quán)方案有一定合理性,是行之有效的。由于財稅網(wǎng)頁文本一般包括標(biāo)題和正文,本系統(tǒng)直接延用該方案進(jìn)行自動標(biāo)引。
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。