精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁(yè) ? 理論教育 ?傳統(tǒng)方法概述

        傳統(tǒng)方法概述

        時(shí)間:2023-02-27 理論教育 版權(quán)反饋
        【摘要】:基于詞頻統(tǒng)計(jì)的關(guān)鍵詞抽取法:該類方法主要是針對(duì)英文等西方語(yǔ)種文獻(xiàn),其具體實(shí)現(xiàn)包括兩大基本步驟:文本形式轉(zhuǎn)換和詞權(quán)重賦值。另外,該方法主要考慮字符串頻率,而忽視詞串長(zhǎng)度的語(yǔ)義特征,從而造成一些重要的詞匯難以抽取出來。
        傳統(tǒng)方法概述_情報(bào)檢索語(yǔ)言的兼容轉(zhuǎn)換

        6.1 傳統(tǒng)方法概述

        漢語(yǔ)在形式上與英語(yǔ)的最大區(qū)別在于構(gòu)成句子的詞之間沒有明確的分隔符,句子之間由標(biāo)點(diǎn)符號(hào)分隔,一個(gè)句子就是一個(gè)連續(xù)的漢字字符串?,F(xiàn)有的中文文本關(guān)鍵詞自動(dòng)抽取方法概括為以下幾種類型:

        (1)文法分析法:文法分析法通過應(yīng)用文法分析程序,抽取出文本中的名詞短語(yǔ),進(jìn)而篩選出合乎一定過濾規(guī)則的詞條。標(biāo)引結(jié)果大多數(shù)為有意義的名詞短語(yǔ)。為了保證詞條語(yǔ)義的完整性,通常需要借助詞典和語(yǔ)料庫(kù),否則程序的分析結(jié)果往往是合乎文法的句子而不是詞[1]。文法分析法比較復(fù)雜,應(yīng)用實(shí)例較為少見。

        (2)基于詞頻統(tǒng)計(jì)的關(guān)鍵詞抽取法:該類方法主要是針對(duì)英文等西方語(yǔ)種文獻(xiàn),其具體實(shí)現(xiàn)包括兩大基本步驟:文本形式轉(zhuǎn)換和詞權(quán)重賦值。文本形式轉(zhuǎn)換是指通過清除HTML或其他標(biāo)簽符號(hào)、停用詞過濾和詞性正規(guī)化等操作,將文本轉(zhuǎn)化為只包含能夠表達(dá)文本內(nèi)容的詞匯;詞權(quán)重賦值則通過定義和計(jì)算各個(gè)詞的權(quán)重來反映該詞匯對(duì)表達(dá)文本內(nèi)容所起的作用,然后根據(jù)設(shè)定的標(biāo)準(zhǔn)篩選出文本的關(guān)鍵詞[2]。最常用的TF/IDF假設(shè):詞匯的重要性與其在特定文獻(xiàn)中的出現(xiàn)頻率呈相關(guān),而與在整個(gè)數(shù)據(jù)集中的出現(xiàn)頻率呈負(fù)相關(guān)。詞匯權(quán)重法需要計(jì)算每個(gè)詞匯在整個(gè)數(shù)據(jù)集中出現(xiàn)的頻率,數(shù)據(jù)集中文獻(xiàn)的相關(guān)程度和數(shù)據(jù)集的規(guī)模大小會(huì)嚴(yán)重影響標(biāo)引效率和標(biāo)引效果。如果數(shù)據(jù)集過于龐大,系統(tǒng)的計(jì)算時(shí)間復(fù)雜度會(huì)明顯增加;如果數(shù)據(jù)集中的文獻(xiàn)相關(guān)性較差,則標(biāo)引效果會(huì)降低。

        該類方法必須使用分詞技術(shù),以使中文文本在形式上雷同于英文文本。國(guó)內(nèi)外已推出各種各樣的通用和專用漢語(yǔ)分詞系統(tǒng),比如中國(guó)科學(xué)院計(jì)算技術(shù)研究所開發(fā)的漢語(yǔ)詞法分析系統(tǒng)(ICT-CLAS)。目前,歧義切分和未登錄詞處理是中文分詞面臨的兩大難題。由于受分詞系統(tǒng)性能的困擾,關(guān)鍵詞自動(dòng)抽取方法一直難以達(dá)到令人滿意的效果。鑒于此,有的專家認(rèn)為,既然分詞的目的是為了理解,而在理解中根本不需要分詞和詞性標(biāo)注,那么在中文自然語(yǔ)言處理中進(jìn)行分詞顯然是多余的,分詞反而容易造成理解上的困難[3]

        (3)完全N-gram標(biāo)引法:N-gram標(biāo)引法是指在中文檢索系統(tǒng)中直接以單漢字(1-gram)或連續(xù)的漢字字符串(N-gram)取代詞作為文本表達(dá)的特征[4][5]。相比較而言,N-gram比較容易實(shí)現(xiàn),但是檢索性能不能得到保證。根據(jù)Tong等在TREC-5上的實(shí)驗(yàn),單漢字標(biāo)引的檢索性能很差,因?yàn)榇蠖鄶?shù)單字的語(yǔ)義并不明確。2-gram標(biāo)引法和詞庫(kù)匹配標(biāo)引法的性能基本相當(dāng)[Tong,1996]。

        (4)詞庫(kù)匹配法:利用已建立的關(guān)鍵詞庫(kù),對(duì)輸入文本進(jìn)行匹配,將文本中被詞庫(kù)收錄的詞條按照最長(zhǎng)匹配法抽取出來,抽取出來的詞條就是文本的關(guān)鍵詞。詞庫(kù)匹配法雖然能夠保證每個(gè)關(guān)鍵詞在語(yǔ)義上都是完整的,但是并不能保證文本中所有的關(guān)鍵詞都能被抽取出來。詞庫(kù)匹配法在很大程度上依賴關(guān)鍵詞庫(kù),詞庫(kù)一般比較龐大,使用靈活性太差。北京大學(xué)圖書館學(xué)情報(bào)學(xué)系1985—1987年間研究的“漢語(yǔ)科技文獻(xiàn)自動(dòng)標(biāo)引系統(tǒng)”,完全集合了建庫(kù)、抽詞、詞表管理、檢索和索引編輯排版等功能,抽詞子系統(tǒng)以自編輯的停用詞表和主題詞表為切分工具。主題詞表選用《機(jī)械工程主題詞表》。標(biāo)引過程采用了多種加權(quán)方法和選詞規(guī)則。與手工標(biāo)引相比,77%以上的結(jié)果相當(dāng)于或者優(yōu)于原手工標(biāo)引。部件詞典法通過建立一種由二字詞和一字詞組成的部件詞典,代替關(guān)鍵詞庫(kù),用于輔助抽取關(guān)鍵詞。這種詞典體積小,提高了抽記號(hào)和組詞的靈活性。侯漢清等提出構(gòu)建由關(guān)鍵詞串、同義詞庫(kù)、分類法、漢語(yǔ)主題詞表以及分類號(hào)—主題詞對(duì)照數(shù)據(jù)庫(kù)的知識(shí)庫(kù),實(shí)現(xiàn)中文網(wǎng)頁(yè)的自動(dòng)標(biāo)引和自動(dòng)分類[6]。但是,這種知識(shí)庫(kù)需要集中多種資源,對(duì)于大多數(shù)應(yīng)用系統(tǒng)來說,這些資源比較難以獲取。

        (5)基于N-gram頻率統(tǒng)計(jì)的方法:該方法的特點(diǎn)是不需要進(jìn)行分詞操作,應(yīng)用一定的算法從文獻(xiàn)的所有N-gram中抽取出任意長(zhǎng)度的關(guān)鍵詞(包括詞和詞組,可以提高檢索性能),從而屏蔽分詞問題困擾關(guān)鍵詞自動(dòng)抽取的問題。Chien首先提出了一種基于PAT-tree的方法[4]。PAT-tree在信息檢索上有相當(dāng)優(yōu)良的特性,但是其建造需要耗費(fèi)相當(dāng)長(zhǎng)的時(shí)間,不適于大規(guī)模文本的處理。其次,它是一種基于文獻(xiàn)數(shù)據(jù)集的方法,要求數(shù)據(jù)集中的所有文獻(xiàn)必須具有一定的相關(guān)性。另外,該方法主要考慮字符串頻率,而忽視詞串長(zhǎng)度的語(yǔ)義特征,從而造成一些重要的詞匯難以抽取出來。例如,“關(guān)鍵詞”的頻率通常低于“關(guān)鍵”,抽取結(jié)果往往會(huì)是“關(guān)鍵”而不是“關(guān)鍵詞”。

        Tseng提出了一種直接對(duì)單篇文獻(xiàn)進(jìn)行關(guān)鍵詞自動(dòng)抽取的方法[7]?;驹恚菏紫葘⒁黄墨I(xiàn)中所有的N-gram(每個(gè)英文單詞看作一個(gè)N-gram)進(jìn)行排序,然后依次將每個(gè)字符串與其后續(xù)一個(gè)字符串進(jìn)行比較。如果兩者的頻率都大于規(guī)定的閾值,則將兩個(gè)字符串合并為一個(gè)長(zhǎng)字符串,存放在一個(gè)Merglist表中;如果某字符串的頻率大于閾值,但其后續(xù)字符串頻率小于閾值,則該字符串被選擇為關(guān)鍵詞,存放在關(guān)鍵詞表中。依此類推,直到Mer-glist表中的字符串?dāng)?shù)小于2為止。100篇臺(tái)灣新聞稿抽取結(jié)果的斷詞錯(cuò)誤率在3.6%左右。該算法需要根據(jù)文獻(xiàn)類型設(shè)定字符串出現(xiàn)頻率的閾值。如果閾值過大,則抽取的關(guān)鍵詞太少;如果閾值過小,則抽取的關(guān)鍵詞錯(cuò)誤率會(huì)增加。

        免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋