精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

<legend id="eotzu"></legend>

? 首頁 ? 理論教育 ?自動標(biāo)引算法

自動標(biāo)引算法

時間：2023-02-27 理論教育版權(quán)反饋

【摘要】：8．2．2　自動標(biāo)引算法在自動賦詞標(biāo)引過程中，關(guān)鍵技術(shù)有自動抽詞算法和標(biāo)引詞權(quán)重設(shè)定：抽詞技術(shù)自動分詞是中文自然語言處理首先要解決的問題。目前常用的分詞方法有很多，其中在自動標(biāo)引和自動分類研究中實際應(yīng)用最多、并受到普遍重視的主要有三種：①基于基本語詞切分詞典的切詞方法；②基于領(lǐng)域抽詞詞典的切分；③采用N－gram統(tǒng)計切分法［7］。由于財稅網(wǎng)頁文本一般包括標(biāo)題和正文，本系統(tǒng)直接延用該方案進(jìn)行自動標(biāo)引。

自動標(biāo)引算法_自然語言敘詞表自動構(gòu)建研究

8．2．2　自動標(biāo)引算法

在自動賦詞標(biāo)引過程中，關(guān)鍵技術(shù)有自動抽詞算法和標(biāo)引詞權(quán)重設(shè)定：

（1）抽詞技術(shù)

自動分詞是中文自然語言處理首先要解決的問題。目前常用的分詞方法有很多，其中在自動標(biāo)引和自動分類研究中實際應(yīng)用最多、并受到普遍重視的主要有三種：①基于基本語詞切分詞典的切詞方法；②基于領(lǐng)域抽詞詞典的切分；③采用N－gram統(tǒng)計切分法^［7］。本系統(tǒng)采用了第二種方法，利用財稅詞表組成的抽詞詞典，采用正向最大匹配算法從文獻(xiàn)中抽取詞匯，規(guī)避分詞瓶頸的困擾。理由是，已經(jīng)構(gòu)建的財稅詞典內(nèi)核詞匯和外殼詞匯可以用來組成抽詞詞典，因財稅詞典收錄了財稅領(lǐng)域的術(shù)語和相關(guān)詞匯，借助它可以從文獻(xiàn)中抽取出相關(guān)的詞匯來表達(dá)文獻(xiàn)主題概念，較第一種方法具有更好的專指性，而第三種方法雖靈活性大，但仍處于實驗階段，需要進(jìn)一步完善和改進(jìn)。

把財稅詞表中的內(nèi)核主題詞部分詞匯和入口詞部分詞匯分別制成抽詞詞典，本系統(tǒng)結(jié)合兩者完成正向最大匹配自動切分算法。該算法的實現(xiàn)原理是：詞典的最大詞長n與待標(biāo)引文獻(xiàn)的n個漢字進(jìn)行預(yù)匹配，匹配成功，則該字段被切分為關(guān)鍵詞；否則，去掉預(yù)匹配字段的最后一個漢字作新的預(yù)匹配字段，再次檢索直至命中。

具體算法如下：

　S←待切分的字串；

（2）權(quán)重方案

為了選擇出符合文獻(xiàn)主題的標(biāo)引詞，基于詞典的自動標(biāo)引方法需要對抽取的詞匯進(jìn)行加權(quán)統(tǒng)計，一般綜合考慮詞頻、標(biāo)引源位置和詞長三個因素。對于單篇文獻(xiàn)來說，詞頻較高的詞匯，其詞長越長，專指度越高，包含信息量就越多，是優(yōu)秀的標(biāo)引用詞；同時該詞出現(xiàn)在文獻(xiàn)中不同位置，其對主題的揭示程度也不同。薛鵬軍、章成志等對經(jīng)濟(jì)、心理、教育等類網(wǎng)頁做過大量手工統(tǒng)計調(diào)查工作后認(rèn)為，文獻(xiàn)標(biāo)題、文摘、關(guān)鍵詞、正文之間的權(quán)重可設(shè)為一定比值^{［8］［9］}。

夏祖奇在其碩士畢業(yè)論文中根據(jù)以上統(tǒng)計經(jīng)驗把標(biāo)題權(quán)重設(shè)置為5，正文權(quán)重設(shè)為1，并結(jié)合三種因素確定具體加權(quán)方案為^［6］：

其中，OccurIn Title為詞Term在標(biāo)題中出現(xiàn)的頻次；OccurI－n Text為詞Term在正文中出現(xiàn)的頻次；Lenth（Term）是一個分段函數(shù)，對詞Term的詞長進(jìn)行加權(quán)，當(dāng)詞為1個字、2個字時，其值為1；詞為3個字時，其值為1．5；詞為4或5個字時，其值為2；詞長大于5個字時，值為3：

經(jīng)過實驗檢驗，該加權(quán)方案有一定合理性，是行之有效的。由于財稅網(wǎng)頁文本一般包括標(biāo)題和正文，本系統(tǒng)直接延用該方案進(jìn)行自動標(biāo)引。

免責(zé)聲明：以上內(nèi)容源自網(wǎng)絡(luò)，版權(quán)歸原作者所有，如有侵犯您的原創(chuàng)版權(quán)請告知，我們將盡快刪除相關(guān)內(nèi)容。

<nav id="e7rnx"></nav>