本體構(gòu)建概況
3.4 本體構(gòu)建概況
語義web很大程度上依賴形式化本體來組織機(jī)器可理解和傳輸?shù)臄?shù)據(jù),毫無疑問本體可以為語義網(wǎng)的成功增值。本體是語義網(wǎng)的基礎(chǔ),因此關(guān)于本體構(gòu)建的研究是目前本體領(lǐng)域的研究重點(diǎn),然而由于研究者來自不同的研究領(lǐng)域,有不同的學(xué)科背景,因此在本體的構(gòu)建方法上目前還沒有統(tǒng)一的標(biāo)準(zhǔn)。一般在構(gòu)建中,大都遵循Gruber在1995年提出的五條構(gòu)建原則。在構(gòu)建方法上有TOVE法、METHONTOLOGY法、骨架法、SENSUS法、KACTUS工程法、IDEF5法和七步法等。構(gòu)建的基本思路有兩種,一是利用現(xiàn)有敘詞表或分類表改造成本體;二是利用現(xiàn)有文獻(xiàn)和領(lǐng)域?qū)<覐念^做起。后者較常用。
3.4.1 利用現(xiàn)有敘詞表或分類表改造成本體
(1)國外的研究進(jìn)展
①GEM[23]
美國Syracuse大學(xué)的J.Qin和S.Paling具體探索了將GEM(教育資料網(wǎng)關(guān))中的受控詞表轉(zhuǎn)換成Ontology的原理和原則框架。其目的是為了多維度、靈活的描述數(shù)字資源,來適應(yīng)智能信息表示和檢索的需要。轉(zhuǎn)化后的本體模型同GEM詞表最初的語義模型相比,二者的主要區(qū)別是在描述電子資源時(shí),無論是概念上(conceptually)的還是概念關(guān)系上(relationally)前者都提供了更深層的語義描述。
②AAT[24]
阿姆斯特丹大學(xué)信息科學(xué)系的B.J.Wielinga等人,利用AAT建立了一個(gè)描述藝術(shù)對象的Ontology。轉(zhuǎn)化的主要方法是建立實(shí)體的描述模型(以家具為例),采用25個(gè)元數(shù)據(jù)元素來進(jìn)行描述。然后將家具的描述屬性同AAT敘詞表中特定部分聯(lián)系起來,是其中的詞能夠成為描述屬性的屬性值。最后添加領(lǐng)域知識,尤其是對屬性值的約束上,限定屬性值的范圍,使之具有語義檢索的能力。
③AGROVOC[25]
農(nóng)業(yè)本體服務(wù)項(xiàng)目(Agricultural Ontology Service,簡稱AOS)是聯(lián)合國糧農(nóng)組織(FAO)國際農(nóng)業(yè)研究信息管理中心負(fù)責(zé)的項(xiàng)目。在該項(xiàng)目中,有嘗試將AGROVOC敘詞表改造成語義關(guān)系豐富的農(nóng)業(yè)本體。
其構(gòu)建的方法是首先建立FA(Food and Agriculture)本體的框架結(jié)構(gòu),主要是各種語義關(guān)系,分析敘詞表中邏輯關(guān)系模糊混亂的用代屬分參,羅列出相應(yīng)的語義關(guān)系明確的各種關(guān)系。采用rules-as-you-go算法來計(jì)算機(jī)輔助識別可能的語義關(guān)系模式。加工的方法是利用本體編輯軟件,采用人工為主,計(jì)算機(jī)輔助的方式轉(zhuǎn)化FA本體。強(qiáng)調(diào)在整個(gè)轉(zhuǎn)化過程中都必須經(jīng)過嚴(yán)格的人工審核。在構(gòu)建過程中,采用rules-as-you-go算法來計(jì)算機(jī)輔助識別可能的語義關(guān)系模式。
此外,SWAD_EUROPE[12]在從敘詞表向本體轉(zhuǎn)化方面也做了較深入的研究。美國NCI敘詞表向本體的轉(zhuǎn)化也取得了很大的進(jìn)步,有相當(dāng)?shù)慕梃b意義。
(2)國內(nèi)的研究進(jìn)展
常春[26]在其博士論文中嘗試?yán)谩掇r(nóng)業(yè)科學(xué)敘詞表》部分?jǐn)?shù)據(jù)建立一個(gè)食品安全的領(lǐng)域本體。采用RDFS作為描述語言,KAON作為開發(fā)工具。具體做法是將敘詞表數(shù)據(jù)庫以及詞間關(guān)系轉(zhuǎn)化為RDF格式,通過JAVA程序轉(zhuǎn)化為KAON可讀的形式。
國防科技信息中心嘗試?yán)谩秶揽茖W(xué)技術(shù)詞表》構(gòu)建小型的軍用飛機(jī)領(lǐng)域本體[27]。選取了與軍用飛機(jī)相關(guān)的概念100個(gè)左右。采取中間展開,即最先選取最重要概念,再確定其他相關(guān)概念的方法來構(gòu)建本體,概念之間的等級關(guān)系是根據(jù)詞表的S、F關(guān)系來確定。概念之間的屬性關(guān)系是在根據(jù)本體對象(軍用飛機(jī))的特點(diǎn)確立的,如飛機(jī)操縱性、飛機(jī)穩(wěn)定性等。該本體選取RDFS作為描述語言,開發(fā)工具為KAON。
曾新紅[28]利用OWL語言來描述《中國分類主題詞表》。采用面向概念的模式將其表示為本體。即詞表中的每一個(gè)正式主題詞都既表示為Concept類的individual。屬、分、參等關(guān)系在概念與概念之間聲明,并在文中探討了詞表中復(fù)合主題的語義揭示方法。
3.4.2 利用現(xiàn)有文獻(xiàn)和領(lǐng)域?qū)<覐念^做起
本體的手工構(gòu)建是一項(xiàng)工作量巨大并且異常繁雜的任務(wù)。利用人工智能領(lǐng)域所取得的成果,自動(dòng)或半自動(dòng)的構(gòu)建本體,成為目前本體構(gòu)建領(lǐng)域研究的重點(diǎn)。AI領(lǐng)域中許多機(jī)器學(xué)習(xí)的方法被改進(jìn)應(yīng)用到的學(xué)習(xí)中,實(shí)現(xiàn)的半自動(dòng)或自動(dòng)構(gòu)建,可以在很大程度上加快的構(gòu)建進(jìn)程,節(jié)省很多的人力和時(shí)間。本體學(xué)習(xí)目前也成為研究的重點(diǎn)之一。本體學(xué)習(xí)[29](Ontology learning,簡稱OL)是一個(gè)新興的領(lǐng)域,旨在幫助知識工程師(knowledge engineer)在機(jī)器學(xué)習(xí)(machine learning)技術(shù)的幫助下構(gòu)建本體以及語義頁面的標(biāo)注(semantic page annotation)[30][31]。
(1)國外的研究進(jìn)展[32]
①InfoSleuth(MCC)
InfoSleuth是MCC(Microelectronics and Computer Technology Corporation)的一個(gè)研究項(xiàng)目,致力于解決信息的定位、評價(jià)、檢索和合并問題,其目的之一就是為了構(gòu)建基于本體的代理結(jié)構(gòu)。并且已經(jīng)成功地運(yùn)用在不同的應(yīng)用領(lǐng)域,包括知識管理、商業(yè)情報(bào)、算術(shù)、基因組映射、環(huán)境數(shù)據(jù)交換網(wǎng)絡(luò)等。
該項(xiàng)目中所用到的本體自動(dòng)構(gòu)建方法是:由領(lǐng)域?qū)<姨峁┥贁?shù)高度概括本體領(lǐng)域的“核心詞匯”,然后從Web上利用這些“核心詞匯”搜索相關(guān)文檔。從搜索到的相關(guān)文檔中抽取該領(lǐng)域推薦的“核心詞匯”以及這些詞匯的相關(guān)概念。同時(shí)在這些詞匯中再次推選“核心詞匯”以進(jìn)行下一次迭代,直到獲得滿意的概念為止。定義數(shù)種關(guān)系模式并從文本中自動(dòng)抽取出這些關(guān)系,例如“is-a”,“part-of”,“manufactured-by”,“owned-by”等。整個(gè)構(gòu)建過程就是上述方法不斷迭代的過程,每次迭代都有一次交互,領(lǐng)域?qū)<叶家M(jìn)行評估,對抽取的內(nèi)容進(jìn)行選擇或改進(jìn)。
②AIFB
AIFB(Institute of Applied Informatics and Formal Description Methods,University of Karlsruhe,Germany)是本體工程研究領(lǐng)域非?;钴S的一個(gè)研究組織。
從領(lǐng)域文本(自然語言描述的自由文本)中抽取本體是他們的一個(gè)研究項(xiàng)目,其構(gòu)建方法主要分文本處理和學(xué)習(xí)算法兩個(gè)部分。在文本處理中,通過信息檢索和自然語言處理技術(shù)來抽取領(lǐng)域概念,使用SMES(Saarbrucken Message Extraction System)來進(jìn)行句法分析。在關(guān)系學(xué)習(xí)機(jī)制中,通過聚類算法獲取本體的等級關(guān)系。非等級關(guān)系,如整體與部分關(guān)系等的獲取是目前本體學(xué)習(xí)中的難點(diǎn)?,F(xiàn)階段的做法主要是通過數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法來獲得。
Joerg-Uwe Kietz等人[33]采用上述方法利用企業(yè)網(wǎng)的數(shù)據(jù)構(gòu)建了一個(gè)保險(xiǎn)業(yè)本體。他們使用GermaNet作為頂級本體。領(lǐng)域概念的獲取是通過一部領(lǐng)域詞典獲得。使用領(lǐng)域的自然語言文本語料(主要是通過詞頻)來剔除啟發(fā)規(guī)則算法中獲得的非領(lǐng)域詞匯。通過多策略學(xué)習(xí)算法來計(jì)算概念之間的關(guān)系,包括統(tǒng)計(jì)學(xué)習(xí)算法和模式匹配算法。
③ECAI2000
ECAI2000(European Conference on Artificial Intelligence)workshop報(bào)道了本體學(xué)習(xí)領(lǐng)域中的重要研究進(jìn)展。自然語言處理技術(shù),如詞性標(biāo)注、詞義消歧和短語切分被用于本體學(xué)習(xí)中,并發(fā)揮了很大的作用。通過這些技術(shù)來抽取能夠代表概念的重要詞匯。通過一些通用的頂級本體(WordNet,SENSUS)來消除歧義以確定最后的概念詞。
Wagner在本體自動(dòng)生成中,通過語料統(tǒng)計(jì)分析技術(shù)來推薦詞匯,這些推薦詞匯對主題關(guān)系的獲取來說是至關(guān)重要的。通過EuroWordNet的輔助,利用一定的算法獲取合適的概念以及這些概念所包含的特殊關(guān)系。
Chalendar&Guau開發(fā)了SVETLAN系統(tǒng)可以從領(lǐng)域自由文本中獲取名詞的等級關(guān)系。為了避免獲取的類目過于通用,同時(shí)要考慮詞條的上下文。系統(tǒng)輸入是有語義的有一定權(quán)值的主題單元(Thematic Units),然后系統(tǒng)從原始文本中檢索這些主題單元,獲取與主題單元相關(guān)的動(dòng)詞,以及該主題單元的語法作用,來構(gòu)成一個(gè)三元組,稱為語法主題單元(Syntactic Thematic Units)。系統(tǒng)通過對這些三元組的分析來獲得結(jié)構(gòu)化的等級關(guān)系。
Bisson,Nedellec等人開發(fā)了Mo’K工作臺用于本體構(gòu)建中的概念聚類。該工作臺可以幫助開發(fā)者根據(jù)給定的任務(wù)選取合適的學(xué)習(xí)算法進(jìn)行聚類,并且能夠?qū)Ω拍罹垲惙椒ㄟM(jìn)行評價(jià)、比較、加工。
Faure&Poibeau討論了從特定本體中學(xué)習(xí)的語義知識可以幫助構(gòu)建更為精確的信息抽取系統(tǒng)。開發(fā)的系統(tǒng)集成了語法分析工具SYLEX和概念聚類工具ASIUM,被稱為是“雙重規(guī)則模型”(double regularity model)。融合了兩個(gè)工具的優(yōu)點(diǎn),可以同時(shí)的、自動(dòng)的進(jìn)行詞義消歧和概念聚類,并且取得了很好的效果。
Todirascu,et al.使用簡單的自然語言處理技術(shù)來半自動(dòng)化的建立領(lǐng)域本體。采用描述邏輯表示,給本體提供有力的推理機(jī)制。同時(shí)還可以處理不完全的和錯(cuò)誤的數(shù)據(jù)。在小規(guī)模的語法語料上對原型進(jìn)行了測試。該系統(tǒng)可以使用很少的句法知識識別相關(guān)的語義問題。獲得的概念是通過描述邏輯進(jìn)行推理得出。該模型中使用了大量的自然語言處理技術(shù),如詞性標(biāo)注、短語切分、模式識別等。領(lǐng)域?qū)<姨峁┥倭康暮诵脑~匯以及詞匯之間的關(guān)系,系統(tǒng)可以通過上述資源自動(dòng)的實(shí)現(xiàn)領(lǐng)域等級結(jié)構(gòu)的構(gòu)建。
④Inductive Logic Programming(University of Texas at Austin,簡稱UT)
UT的機(jī)器學(xué)習(xí)小組使用規(guī)約邏輯編程(Inductive Logic Programming,簡稱ILP)從不同的實(shí)例中學(xué)習(xí)相關(guān)的規(guī)則知識。絕大多數(shù)的學(xué)習(xí)算法將學(xué)習(xí)語料嚴(yán)格的限定為基于特征的范例或概念,因此不能學(xué)習(xí)復(fù)雜的關(guān)系和遞歸知識。在應(yīng)用中暴露了不少的問題,但是ILP目前仍是機(jī)器學(xué)習(xí)中不斷成長的領(lǐng)域。UT系統(tǒng)(規(guī)約邏輯編程)在本體概念抽取和關(guān)系探測上十分有潛力,它結(jié)合了信息檢索技術(shù),機(jī)器學(xué)習(xí)和人工智能技術(shù)來作為它的概念和規(guī)則的學(xué)習(xí)。但是,如何將本體概念和規(guī)則配置入U(xiǎn)T方法,還是一個(gè)尚待解決的問題。
(2)國內(nèi)的研究進(jìn)展
關(guān)于對本體的研究,國內(nèi)還處于起步研究階段,主要還是借鑒國外的經(jīng)驗(yàn)。因此關(guān)于本體的自動(dòng)構(gòu)建研究甚少。
鄭麗萍,梁永全[34]根據(jù)聚類分析法的特點(diǎn),提出基于聚類分析法的本體構(gòu)造方法。首先根據(jù)類的相關(guān)屬性構(gòu)造了一個(gè)數(shù)據(jù)矩陣,并利用矩陣中的值計(jì)算新生成的類和未合并類之間的絕對值距離,然后根據(jù)距離的大小對類進(jìn)行合并,并產(chǎn)生新的類。用同樣的方法計(jì)算新生成的類和未合并類之間的絕對值距離,直到得出最頂層的類為止,并以酒本體的構(gòu)造為例來具體說明該方法。
董慧等人[35]結(jié)合國內(nèi)外的研究經(jīng)驗(yàn),認(rèn)為從某一領(lǐng)域文本中提取本體主要包括三個(gè)階段,即文本預(yù)處理、本體抽取和本體關(guān)系獲取。在文本預(yù)處理中,將文本按照一定規(guī)則轉(zhuǎn)化為詞;在本體抽取中,從詞中抽取出相關(guān)本體;在本體關(guān)系獲取中,對本體的層次或者交叉關(guān)系進(jìn)行提取。采用基于統(tǒng)計(jì)模式從文本中抽詞,基于奇異值分解從詞-文檔矩陣中提取本體,基于語義相似度對于本體進(jìn)行聚類等。而對于本體自動(dòng)獲取的效果評估,提出了利用計(jì)算手工和自動(dòng)兩種方式獲取的本體的相似度(包括詞和語義相似度)來衡量的思路。
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。