精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁 ? 理論教育 ?自動標引研究路線圖與方法分類

        自動標引研究路線圖與方法分類

        時間:2023-02-27 理論教育 版權反饋
        【摘要】:2.1.4 自動標引研究路線圖與方法分類通過對自動標引研究的綜述,本書總結出自動標引的研究路線圖,如圖2-3所示[35]。目前較典型的漢語自動標引方法如詞典標引法、切分標記法、語法分析標引法、漢語自動標引專家系統(tǒng)、單漢字標引法等,均以解決分詞問題為主要目標,標引過程主要吸收相應的西文標引技術[49]。詞典標引法是借助詞典抽取文獻中詞匯進行標引的過程。
        自動標引研究路線圖與方法分類_文本自動標引與自動分類研究

        2.1.4 自動標引研究路線圖與方法分類

        通過對自動標引研究的綜述,本書總結出自動標引的研究路線圖(Road Map),如圖2-3所示[35]。主要有三個領域的研究者對自動標引進行了不同角度的研究,即:圖書情報領域,主要從資源構建角度進行研究,為主題標引提供了豐富的詞表資源;語言學領域,從語言分析的角度研究了主題提取的機制與方法,利用詞法知識、句法知識、語義知識以及篇章知識進行不同層次的主題提取研究;人工智能領域,主要從機器學習角度對自動標引進行了大量的研究,如對啟發(fā)式知識、標記數據的機器學習、無標記的機器學習、集成學習等方法的運用。如圖2-3所示,這三個領域分別從兩個維度對自動標引進行研究,即:自動化程度維度,先后經歷人工標引、機器輔助標引、自動標引等階段;知識復雜程度維度,先后經歷字、詞、短語、語塊、句法、語義、篇章結構等不同顆粒度的多種知識。

        img8

        圖2-3 自動標引研究路線圖

        (1)自動標引方法分類

        根據標引結果的來源不同,可以將自動標引分為抽詞標引和賦詞標引。表2-2對抽詞標引和賦詞標引方法做了詳細的分類,描述了具體的方法,并給出了各種方法的優(yōu)缺點[35]。

        表2-2 自動標引方法的分類

        img9

        (續(xù)表)

        img10

        (2)抽詞標引方法的詳細分類

        如前所述,根據標引的詞語的來源不同,可以將自動標引分為自動抽詞標引和自動賦詞標引。自動抽詞標引是指直接從原文中抽取詞或短語作為標引詞來描述文獻主題內容的過程。它涉及如何從原文中抽取能夠表達其實質意義的詞匯,以及如何根據這些詞匯確定標引詞[48]。賦詞標引是指使用預先編制的詞表中的詞來代替文本中的詞匯進行標引的過程。即,將反映文本主題內容的關鍵詞(欲用作標引的關鍵詞)轉換為詞表中的主題詞(或敘詞等),并用其標引的方法[48]。

        自動抽詞標引,可以進行如下的大致分類:

        ①從機器學習角度分類

        ●監(jiān)督學習:將關鍵詞自動提取看成一種分類問題,如SVM。

        ●非監(jiān)督學習:利用非監(jiān)督學習方法(如聚類)獲取關鍵詞。

        圖2-4給出了基于機器學習的自動抽詞方法的邏輯視圖。

        img11

        圖2-4 基于機器學習的自動抽詞方法邏輯視圖

        ②從所使用的特征分類

        ●規(guī)則信息,多為語言學特征,如標題、章節(jié)名、名詞等作為關鍵詞的概率大,相應的對這些特征賦予較高權重。其他的規(guī)則信息還包括對首次出現位置(DEP)靠前的、詞性(POS)名詞性成分高的詞語賦較大權重等。

        ●統(tǒng)計信息,TF-IDF[40]、長度、短語的獨立性等。

        (3)賦詞標引方法詳細分類

        通常的賦詞標引方法是借助于外部資源,如后控詞表(包括同義詞、上下位詞、相關詞等)、敘詞表、本體等資源,將自動賦詞過程轉換為主題詞的分類過程,或將文本的關鍵詞轉換為主題詞。根據賦詞標引所依據的外部資源對賦詞標引方法進行詳細分類[35]

        (4)中文文本自動標引方法分類

        從標引的目的來看,漢語與西文沒有區(qū)別,但由于漢語行文和組詞的特殊性——詞語之間無間隔標志,因此,漢語文獻自動標引的一個不可回避的問題就是語詞切分。目前較典型的漢語自動標引方法如詞典標引法、切分標記法、語法分析標引法、漢語自動標引專家系統(tǒng)、單漢字標引法等,均以解決分詞問題為主要目標,標引過程主要吸收相應的西文標引技術[49]。

        詞典標引法是借助詞典抽取文獻中詞匯進行標引的過程。該方法是目前漢語自動標引算法中占比重較大的一種,根據機內詞典不同具體形式又分為主題詞表法、關鍵詞詞典法和部件詞典法等[49]。

        切分標記法是將能夠斷開句子或表示漢字之間關系的漢字集合組成切分標記機內字典。切分標記字典既有用詞首字、詞尾字、不構詞的單字或幾種情況的組合來構建的,也有用“非用字”、“條件用字”等來組成的[49]。

        語法分析標引法是通過對自然語言文法或句型文法的分析來抽取主題詞加以標引。由于漢語自然語言文法復雜,規(guī)則較多,目前還沒有一個形式化系統(tǒng)能對漢語文法進行描述。但是句型文法分析則相對容易。如科技文獻標題和文摘中的句型種類較為有限,如“本文討論了”等,幾乎出現在每一篇文獻中,而這些句子對自動標引來說則非常重要,因為這些句型正是表達文獻主題內容的句型。因此可用句型文法來描述現代漢語,進而抽取主題詞進行標引[49]。

        漢語文獻自動標引專家系統(tǒng)的基本原理是,以現有的漢語專業(yè)主題詞表為基礎,構建概念語義網絡,根據一定的抽詞規(guī)則、標引規(guī)則和專門知識,對所處理的素材進行分析、判斷、選擇,最后確定標引主題詞。

        單漢字標引法吸收了西文自動抽詞標引的部分思想,在標引時將概念詞拆成單漢字,以單漢字為處理單位,利用漢字索引文件實現自動標引和邏輯檢索。由于這種方法把對“詞”的處理改為對“字”的處理,因此就繞過了漢字分詞的難題。單漢字標引和檢索的基本過程是,標引時計算機對處理的文本逐一抽字,經過一些處理(如去掉無意義的虛字)后,建立索引文件。檢索時將檢索詞拆分成單字與索引文件進行比較,并運用邏輯組配得出檢索結果[49]

        免責聲明:以上內容源自網絡,版權歸原作者所有,如有侵犯您的原創(chuàng)版權請告知,我們將盡快刪除相關內容。

        我要反饋