試驗數(shù)據(jù)描述
7.4 試驗數(shù)據(jù)描述
本系統(tǒng)中用到的數(shù)據(jù)主要有:停用詞詞典、關(guān)鍵詞詞典、詞素詞典、財稅全文庫、財稅釋義詞典。簡要說明如下:
(1)停用詞詞典
停用詞詞典主要收錄了無檢索意義的詞匯和符號等,主要包括:①各種標(biāo)點符號如“,”、“?!薄ⅰ?;”等;②各種助詞、連詞、虛詞等如“非?!薄ⅰ暗恰?、“的”等;③詞頻很高且對本領(lǐng)域幾乎無檢索意義和標(biāo)引價值的通用詞如“說明”、“用于”等。本系統(tǒng)采用的停用詞主要來源于本實驗室長期積累的經(jīng)濟(jì)類停用詞詞典以及財稅詞表構(gòu)建過程中收集的關(guān)鍵詞詞典中經(jīng)詞頻統(tǒng)計后選取的高詞頻通用詞匯7 306條。建立停用詞詞典的目的在于:①用于對文本庫中的文本抽詞前進(jìn)行停用詞過濾,提高抽詞的準(zhǔn)確度和效率;②用于新詞識別階段,在N-gram切分前進(jìn)行停用詞過濾,提高新詞識別效率。停用詞詞典在使用中需要不斷維護(hù)和更新,并根據(jù)研究領(lǐng)域特點進(jìn)行相應(yīng)的調(diào)整和補(bǔ)充。
(2)關(guān)鍵詞詞典
不同于綜合通用性詞表,財稅領(lǐng)域詞表收詞范圍以本領(lǐng)域?qū)I(yè)用詞為主,兼顧相關(guān)業(yè)務(wù),故具有一定的收詞深度,多途徑收集詞匯,從學(xué)術(shù)數(shù)據(jù)庫題錄信息中套錄關(guān)鍵詞;從現(xiàn)有詞表中收詞;通過N-gram新詞識別算法從文獻(xiàn)中收詞。經(jīng)過合并去重后生成關(guān)鍵詞詞典,共計12 083條詞匯,構(gòu)建關(guān)鍵詞詞典的目的在于:①用于文本庫抽詞詞典,經(jīng)詞頻統(tǒng)計后,確定財稅詞表收詞范圍;②用于新詞識別階段,N-gram分詞后得到的詞匯經(jīng)關(guān)鍵詞表過濾后得到未登錄詞。
(3)詞素詞典
詞素是字面上不能再分的語義單元。詞素詞典的制作方法為,在確定財稅詞表收詞范圍后,對所收錄的詞匯經(jīng)過人工切分,如“稅收管理”經(jīng)人工切分為兩個詞素“稅收/管理”,通過編程從中提取詞素后經(jīng)過合并去重,從而生成詞素詞典。建立詞素詞典的目的在于:①用于同義詞識別過程,采用詞面相似度算法計算語詞的相似度;②用于等級關(guān)系識別過程,采用“前方一致”或“后方一致”詞素匹配方法聚集字面成族的詞匯。
(4)財稅全文庫
網(wǎng)絡(luò)提供了大量實驗資料,以網(wǎng)頁為全文庫收集來源,不僅可以保障詞表收詞新穎可靠,而且資料數(shù)量不受限制,取材方便。本系統(tǒng)收集的語料庫集中在財稅領(lǐng)域范圍,直接來源于國家稅務(wù)總局(http://www.chinatax.gov.cn)、中國稅網(wǎng)(http://www.ctaxnews.com.cn/default.htm)、中華人民共和國財政部稅務(wù)部分(http://www.mof.gov.cn/index.htm)、中國稅務(wù)網(wǎng)(http://www.ctax.org.cn/),并通過網(wǎng)站自動下載軟件teleport采集網(wǎng)頁。為了保障后續(xù)工作的質(zhì)量,網(wǎng)頁采集時需要注意:①根據(jù)網(wǎng)站內(nèi)容分布,盡量全面收集覆蓋財稅主題領(lǐng)域的網(wǎng)頁;②盡量避免重復(fù)采集網(wǎng)頁,并在把網(wǎng)頁轉(zhuǎn)換成文本時,根據(jù)題名去掉重復(fù)的記錄。
這些網(wǎng)頁集中在2004年1月到2006年12月,共計10 371篇。利用計算機(jī)程序通過識別網(wǎng)頁標(biāo)記語言,提取文本內(nèi)容,統(tǒng)一轉(zhuǎn)換為GB2312編碼格式,半角到全角的轉(zhuǎn)換,再收集入庫,并根據(jù)標(biāo)題的簡單匹配去除重復(fù)的文本。全文庫字段安排如表7-1所示:
表7-1 財稅全文庫字段說明
建立財稅全文庫的目的和作用是:①用于N元切分收詞,以獲取財稅領(lǐng)域最新的自然語言詞匯;②用于詞匯同現(xiàn)分析,獲取詞匯之間的關(guān)聯(lián)知識;③根據(jù)全文庫總詞頻選詞,是詞表收詞的依據(jù)。
(5)財稅釋義詞典
該詞典在陸勇碩士畢業(yè)論文“基于模式匹配的漢語同義詞自動識別”所采用的《中國大百科全書·經(jīng)濟(jì)卷》經(jīng)濟(jì)詞匯的注釋語料基礎(chǔ)上[1],加入了《中國稅務(wù)辭典》關(guān)于財稅方面語詞的釋義,共計4 502條。兩者匯集了財稅領(lǐng)域重要的概念、術(shù)語及其注釋,基本覆蓋了該領(lǐng)域最基本的學(xué)科知識。財稅釋義詞典主要用于同義詞識別過程中采用模式匹配方法,從財稅概念釋義中提取同義詞。
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。