領(lǐng)域本體半自動構(gòu)建系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
5.5 領(lǐng)域本體半自動構(gòu)建系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
為了驗(yàn)證本文提出的領(lǐng)域本體半自動構(gòu)建方案的可行性和有效性,本文采用Java語言開發(fā)了一個領(lǐng)域本體半自動構(gòu)建實(shí)驗(yàn)系統(tǒng),包括從候選概念獲取到最后本體形式化生成的整個流程。所采用的開發(fā)環(huán)境是Windows 2000,開發(fā)工具為JBuilder 2005,JDK版本為1.4,使用的語義Web開發(fā)工具為Jena 2.3。
5.5.1 總體設(shè)計(jì)
領(lǐng)域本體半自動構(gòu)建實(shí)驗(yàn)系統(tǒng)共分為以下五個模塊:
(1)候選概念獲取模塊,主要作用是從農(nóng)學(xué)語料文本中抽取候選概念(關(guān)鍵詞);
(2)領(lǐng)域概念篩選模塊,主要作用是對抽取的候選概念根據(jù)一定的算法進(jìn)行篩選,選取出最能代表農(nóng)學(xué)領(lǐng)域的概念;
(3)等級關(guān)系構(gòu)建模塊,主要作用是對篩選后的農(nóng)學(xué)概念進(jìn)行等級關(guān)系的獲取,采用以改進(jìn)的層次聚類算法為主,模式識別算法為輔的獲取方法;
(4)領(lǐng)域關(guān)系構(gòu)建模塊,主要作用是在獲取了等級關(guān)系的概念進(jìn)行領(lǐng)域關(guān)系的發(fā)現(xiàn)和識別;
(5)本體形式化模塊,主要作用是對已經(jīng)獲取了等級關(guān)系和領(lǐng)域關(guān)系的農(nóng)學(xué)概念進(jìn)行本體形式化批處理,使之直接輸出OWL語言描述的OWL本體文件。
整個實(shí)驗(yàn)系統(tǒng)的構(gòu)成見圖5-11。
圖5-11 領(lǐng)域本體半自動構(gòu)建系統(tǒng)模塊圖
5.5.2 模塊功能
為了清晰的刻畫領(lǐng)域本體半自動構(gòu)建系統(tǒng)的工作流程,本節(jié)將對該實(shí)驗(yàn)系統(tǒng)的界面和使用流程做簡單介紹,系統(tǒng)主界面如圖5-12。
圖5-12 領(lǐng)域本體半自動構(gòu)建系統(tǒng)主界面
1 候選概念獲取模塊
候選概念獲取模塊的主要功能是從農(nóng)學(xué)語料文本中獲取其中的關(guān)鍵詞。該模塊可以自由選擇要處理的某篇文本,經(jīng)過N-Gram處理以及規(guī)則過濾按鈕處理后,得到處理結(jié)果顯示在結(jié)果顯示區(qū),同時也可以進(jìn)行文本多篇的批處理方式。
圖5-13 領(lǐng)域本體候選概念獲取界面圖
2 領(lǐng)域概念篩選模塊
領(lǐng)域概念篩選模塊主要是為了從領(lǐng)域文本中抽取的候選概念根據(jù)文獻(xiàn)保障原則,將候選概念作為抽詞詞典對農(nóng)史領(lǐng)域的文本進(jìn)行主題標(biāo)引,選取最能代表文本主題概念的領(lǐng)域概念。
在領(lǐng)域概念篩選模塊中,引入了如下參數(shù):
(1)權(quán)重分配 該參數(shù)用來調(diào)整文本不同的位置選取的權(quán)重。眾所周知,每篇文本中,題名最能代表文本的主題,文摘次之,全文更次之。為了更好地對農(nóng)史文本進(jìn)行主題描述,需要對文本選取的權(quán)重進(jìn)行合理分配,本文設(shè)置權(quán)重參數(shù)供用戶隨機(jī)調(diào)整題名、文摘和全文的選取權(quán)重。
(2)標(biāo)引的深度 該參數(shù)用來控制每篇文本標(biāo)引詞的個數(shù)。在文本標(biāo)引中,標(biāo)引的關(guān)鍵詞的排序按照與主題相關(guān)的程度進(jìn)行排序,排序在前的最能代表文本的語義主題。標(biāo)引的深度用來調(diào)整每篇文本保留的關(guān)鍵詞的個數(shù)。
圖5-14 領(lǐng)域本體半自動構(gòu)建本體概念篩選模塊界面圖
3 等級關(guān)系構(gòu)建模塊
等級關(guān)系構(gòu)建模塊的作用是把相同含義的概念聚集在一個類下。所依據(jù)的原理是:如果兩個概念的含義相似,那么兩個概念就有相似的上下文環(huán)境。因此,如果統(tǒng)計(jì)出與每個概念一起出現(xiàn)的其他概念以及與這些概念的相關(guān)程度之后,該模塊能夠把含義相似的概念聚集起來,并且對聚類的結(jié)果進(jìn)行可視化的處理,將聚類的結(jié)果顯示為一棵樹形的結(jié)果,聚類的每個概念為樹的葉子。
如下圖所示,在本文開發(fā)的領(lǐng)域本體半自動構(gòu)建系統(tǒng)的等級關(guān)系模塊中,用戶只要選擇了要聚類的文本(需要事先統(tǒng)計(jì)好概念對相似度),系統(tǒng)就可以自動將相似的概念歸在一起。該模塊有兩個參數(shù):
圖5-15 領(lǐng)域本體半自動構(gòu)建系統(tǒng)等級關(guān)系模塊界面圖1
(1)最小類詞數(shù):該參數(shù)可以調(diào)整聚類的粒度,是對傳統(tǒng)層次聚類算法的調(diào)整。在傳統(tǒng)的聚類算法中,聚類的結(jié)果是二元的,也就是每兩個詞就歸入一個類,這樣過于細(xì)致。最小類詞數(shù)可以根據(jù)算法,人為規(guī)定,調(diào)整聚類的粒度。
(2)最小內(nèi)聚度:該參數(shù)用來調(diào)整聚類松散度。聚類的標(biāo)準(zhǔn)是類內(nèi)高內(nèi)聚、類間低耦合。為了可以隨時調(diào)整聚類的效果,設(shè)置了該參數(shù)根據(jù)實(shí)際情況來進(jìn)行隨時調(diào)整,使得聚類有更大的靈活性。
在選擇了概念對相關(guān)度表之后,系統(tǒng)可以根據(jù)改進(jìn)的層次聚類算法對結(jié)果進(jìn)行聚類輸出。為了對聚類結(jié)果進(jìn)行人工審核,在圖5-16中,將聚類結(jié)果進(jìn)行樹狀顯示,可以根據(jù)專業(yè)人員的判斷,選中葉子節(jié)點(diǎn),點(diǎn)擊右鍵可以對樹狀的葉子節(jié)點(diǎn)進(jìn)行添加、刪除、重命名、合并、整理等操作,以便調(diào)整聚類結(jié)果的邏輯性和正確性。
圖5-16 領(lǐng)域本體半自動構(gòu)建系統(tǒng)等級關(guān)系模塊界面圖2
4 領(lǐng)域關(guān)系構(gòu)建模塊
領(lǐng)域關(guān)系構(gòu)建模塊的作用是從農(nóng)學(xué)語料中抽取主謂賓模式并標(biāo)注出主語和賓語的語義類,需要手工剔除其中生成的噪音數(shù)據(jù)。以單個詞處理流程為例,輸入待處理謂詞,系統(tǒng)會查詢《同義詞詞林》獲取相同含義的同義詞謂詞,繼而在語料庫中篩選出含有這些動詞的語料,按下“句法提取”按鈕,即可獲取提取結(jié)果(圖5 -17)。
圖5-17 領(lǐng)域本體半自動構(gòu)建系統(tǒng)領(lǐng)域關(guān)系構(gòu)建模塊界面圖
圖5-18 領(lǐng)域本體半自動構(gòu)建系統(tǒng)領(lǐng)域關(guān)系提取結(jié)果放大圖
5 本體形式化模塊
領(lǐng)域本體半自動構(gòu)建系統(tǒng)可以對概念關(guān)系按照既定的規(guī)則采取批處理方式自動化的生成形式化的本體,提高了本體生成的效率。如圖5-16按下按鈕“生成本體文件”即可生成OWL語言描述的形式化本體(當(dāng)然也可以根據(jù)需要生成RDF語言描述的)。
下面是生成的OWL語言本體的部分樣例:
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。