精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁 ? 理論教育 ?描述模塊關系常用詞匯

        描述模塊關系常用詞匯

        時間:2023-02-27 理論教育 版權反饋
        【摘要】:7.3 系統(tǒng)總體設計根據(jù)系統(tǒng)功能和總體流程,自然語言敘詞表自動構建系統(tǒng)可分為以下六個模塊:關聯(lián)概念空間生成模塊、等級與相關關系生成模塊、同義詞識別模塊、詞表查詢模塊、自動標引模塊、新詞識別模塊。
        系統(tǒng)總體設計_自然語言敘詞表自動構建研究

        7.3 系統(tǒng)總體設計

        根據(jù)系統(tǒng)功能和總體流程,自然語言敘詞表自動構建系統(tǒng)可分為以下六個模塊(見圖7-2):關聯(lián)概念空間生成模塊、等級與相關關系生成模塊、同義詞識別模塊、詞表查詢模塊、自動標引模塊、新詞識別模塊。各模塊的主要功能如下:

        img84

        圖7-2 自然語言敘詞表自動構建系統(tǒng)構架圖

        (1)關聯(lián)概念空間生成模塊

        該模塊主要任務是挖掘文本庫中潛在的概念語義關聯(lián)知識,生成關聯(lián)概念空間,用以詞表構建過程中對相關關系詞匯的推薦,同時作為詞聚類分析的基礎,用以從中提取概念的特征向量并進一步識別詞匯等級關系。

        該模塊主要包括自動抽詞和同現(xiàn)分析兩部分。自動抽詞階段主要采用停用詞詞典、關鍵詞詞典對文本庫中的文本進行關鍵詞提取,同時統(tǒng)計詞頻,并生成正排檔。同現(xiàn)分析階段則采用改進的DICE測度算法,以單篇文獻為同現(xiàn)窗口,通過掃描正排檔完成同現(xiàn)分析,得到概念之間的語義關聯(lián)。

        (2)等級與相關關系生成模塊

        該模塊實現(xiàn)以下功能:根據(jù)詞素“前方一致”或“后方一致”聚類字面上相似的詞匯;在概念空間基礎上提取詞匯的特征向量和計算詞匯之間的語義相似度,采用詞聚類算法聚集語義相似的詞匯,并通過等級識別算法推薦每個簇中詞匯之間的等級關系;在概念空間基礎上推薦相關詞;根據(jù)以上推薦的詞間關系,經過人工鑒別確認后,在關系導出模塊導出到底層數(shù)據(jù)庫中保存下來。

        (3)同義詞識別模塊

        該模塊實現(xiàn)同義詞識別功能,對核心主題詞構造用代關系。主要采用模式匹配方法從財稅釋義詞典中提取同義詞,同時利用詞面相似度算法識別具有字面相似特征的同義詞,對模式匹配方法進行補充,達到盡量收全同義詞的目的。

        (4)詞表查詢模塊

        在該模塊能夠查詢已構建的自然語言敘詞表。輸入查詢詞匯后,可以查閱該詞匯的上下位關系、入口詞匯和相關關系詞匯。對于輸入的自然語言,系統(tǒng)會提示與之對應最相關的內核主題詞,并根據(jù)查詢詞匯,能檢索文本庫,將匹配結果返回給用戶。另外,該模塊具有字順表生成和導出功能。

        (5)自動標引模塊

        該模塊實現(xiàn)對稅務文本的主題概念挖掘。首先采用停用詞詞典過濾停用詞,采用內核主題詞和入口詞,根據(jù)標引源權重方案,分別利用正向最大匹配算法抽詞;再將抽取的關鍵詞根據(jù)一定算法轉換成受控主題詞,同時累加權重,最終推薦權重最高的前6個受控詞作為標引結果。

        (6)新詞識別模塊

        詞表生成后,需要對其進行更新和維護,其中最重要的是補充未登錄詞,滿足用戶不斷變化的信息需求。該模塊采用N-gram分詞方法,從新采集的網頁文本中識別未登錄詞,同時記錄詞匯的詞頻信息,作為候選依據(jù)。

        在等級生成模塊的關系導出部分,可以實現(xiàn)對現(xiàn)有詞表詞間關系的增、刪、改等操作,也是詞表維護的一部分。

        免責聲明:以上內容源自網絡,版權歸原作者所有,如有侵犯您的原創(chuàng)版權請告知,我們將盡快刪除相關內容。

        我要反饋