6.2 基于集成的領域知識組織系統(tǒng)構建
6.2.1 基于集成的領域知識組織系統(tǒng)構建意義
術語表、分類表、敘詞表、知識本體等知識組織系統(tǒng)是加工信息、組織資源、提供知識服務的語義工具,在文獻信息服務中扮演著重要角色。傳統(tǒng)的知識組織系統(tǒng)往往以某種知識體系為框架,為特定目的而設計,每個知識組織系統(tǒng)都有一個總體結構和學科范圍。按照領域范圍劃分,知識組織系統(tǒng)可分為綜合性知識組織系統(tǒng)和專業(yè)性知識組織系統(tǒng)。綜合性知識組織系統(tǒng)收錄多個學科的概念,但限于篇幅,概念相對寬泛,如由中國科學技術信息研究所編制的《漢表》,收錄了社會科學、自然科學、工程技術等各個學科的概念,但總詞匯量僅十萬余,無法專指地揭示概念,因此不適用于具體領域信息的深度標引和專指檢索。因此,從20世紀80年代后期開始,知識組織系統(tǒng)向小型化、專業(yè)化方法發(fā)展,形成了一系列的專業(yè)分類表和敘詞表,如《農(nóng)業(yè)敘詞表》、《環(huán)境科學敘詞表》、《交通漢語主題詞表》、《軍事信息資源分類法》、《醫(yī)學專業(yè)分類表》等等,這些專業(yè)化的知識組織系統(tǒng)相對于綜合性知識組織系統(tǒng)而言,收錄的概念更加細微、專指,對于專業(yè)文獻信息的深度標引和專指檢索具有重要意義,為專業(yè)信息資源的管理帶來便利,但同時也導致一些問題。這些專業(yè)知識組織系統(tǒng)一般是面向某一學科的,而科學研究中交叉學科通常才是研究活躍的領域,在一些前沿研究文獻中,往往會涉及多個專業(yè)領域的術語,如一篇博士論文《基于本體的魚病知識獲取與診斷推理集成系統(tǒng)研究》的關鍵詞包括:“領域本體”、“知識獲取”、“遺傳算法”、“基于案例推理”、“魚病診斷”、“集成系統(tǒng)”,這些關鍵詞涉及數(shù)學、農(nóng)業(yè)、計算機等諸多學科領域。一部專業(yè)詞表往往很難全面覆蓋這些詞匯,因此,必須構建面向具體領域、多學科交叉的知識組織系統(tǒng),從傳統(tǒng)的、面向?qū)W科專業(yè)的知識組織系統(tǒng)向面向領域的知識組織系統(tǒng)轉(zhuǎn)化。
知識組織系統(tǒng)的人工構建是一件耗時耗力、智力依賴型的工作,而限于當前的自然語言處理技術水平,自動構建的效果不佳。因此,通過對多個學科的知識組織系統(tǒng)的集成來構建新型的領域知識組織系統(tǒng)是以敘詞表為代表的知識組織系統(tǒng)研究和發(fā)展的重要方向。通過研究知識組織系統(tǒng)的統(tǒng)一計算機化表示形式、規(guī)范和技術接口,從而集成各專業(yè)分類法、敘詞表、術語表、兼容現(xiàn)有多種格式的各種詞表。通過跨學科的知識組織系統(tǒng)的集成,將盤活原有的各種知識組織系統(tǒng),降低構建新的知識組織系統(tǒng)的成本,使各種知識組織工具能夠在信息智能處理過程中充分發(fā)揮作用。
因此,在網(wǎng)絡環(huán)境下,基于各種傳統(tǒng)的知識組織工具,通過集成創(chuàng)新的方法構建新型的、面向特定領域應用的知識組織系統(tǒng)具有重要的意義。其集成的意義主要體現(xiàn)在三個方面:①通過在不同知識組織系統(tǒng)之間建立映射,達到整合資源、提高信息檢索效率的目的;②通過不同知識組織系統(tǒng)的集成整合創(chuàng)新出新的知識組織系統(tǒng),以降低知識組織系統(tǒng)開發(fā)成本和難度,提高信息表示和知識揭示的深度;③通過多知識組織系統(tǒng)的集成,基于Web Service技術提供術語服務,以盤活各種傳統(tǒng)知識組織工具在網(wǎng)絡環(huán)境中的應用等。
6.2.2 基于集成的領域知識組織系統(tǒng)構建技術路線
基于集成的領域知識組織系統(tǒng)構建是建立在知識組織系統(tǒng)互操作基礎之上,在合并(mergering)、映射(mapping)的基礎上實現(xiàn)集成整合(integrating)。本研究來自國家“十一五”科技支撐計劃重點項目“科技文獻信息服務系統(tǒng)關鍵技術研究及應用示范”子課題“知識組織系統(tǒng)的集成及服務體系研究與實現(xiàn)”(2006BAH03B03),將結合相關知識組織技術,通過對現(xiàn)有知識組織工具的深入研究,完成跨學科、多來源知識組織系統(tǒng)的集成實驗,并就多學科交叉的“新能源汽車”領域完成集成構建實驗。
知識組織系統(tǒng)集成構建技術路線主要研究集成的步驟、各個階段的輸入輸出以及支撐技術和工具。具體路線初步擬定如圖6-2所示,自底向上分三部分完成。
第一部分為詞表融合,如圖6-2中A部分所示。通過對現(xiàn)有各種知識組織系統(tǒng)的規(guī)范化表示和語料中新詞匯的發(fā)現(xiàn)構建基本的詞索引庫(包括詞和關系);利用關系推導、模式識別等同義詞挖掘方法發(fā)現(xiàn)詞索引庫中的同義詞,完成詞匯句法層面的集成;通過關系邏輯的整理對詞表中原有的詞間關系進行選擇、推導和調(diào)整,同時利用關聯(lián)挖掘方法發(fā)現(xiàn)來自不同詞表的術語詞匯之間的關聯(lián),實現(xiàn)結構層面的集成;進行集成詞表內(nèi)部一致性檢查,避免語義沖突,形成集成基礎詞庫。主要研究包括:①詞索引的結構,主要在SKOS概念屬性的基礎上盡可能詳盡詞及詞間關系的描述信息;②同義詞的發(fā)現(xiàn),不同同義詞識別算法的研究和綜合使用;③關系邏輯規(guī)則整理,用描述邏輯來描述和推導詞間關系,通過提煉關系邏輯推導規(guī)則來進行詞間關系的整理,實現(xiàn)語義互操作。
圖6-2 知識組織系統(tǒng)集成技術路線
第二部分為集成創(chuàng)新,如圖6-2中B部分所示。即在集成基礎詞庫的基礎上面向具體領域或具體應用,利用當用詞篩選模型篩選出一個當用詞表(current vocabulary)。這是在集成基礎上的動態(tài)創(chuàng)新,是構建新知識組織系統(tǒng)方法的一種嘗試。在此過程中有兩大主要問題:①當用詞篩選模型;②集成詞表評價模型。
第三部分為概念詞庫構建,如圖6-2中C部分所示,是對集成詞庫中詞匯語義關系的細化,為將來構建更高一層的知識組織系統(tǒng)(如語義本體)提供資源基礎。主要包括:①詞匯語義關系類型的定義;②詞匯語義關系的細化,尤其是自動識別技術的探索等內(nèi)容。
這個集成構建的過程并不是一蹴而就的,應是一個分階段、分步驟,逐步精化的過程。
6.2.3 基于集成的領域知識組織系統(tǒng)構建主要問題
(1)知識組織系統(tǒng)的規(guī)范化表示和描述
雖然目前已經(jīng)形成了Z39.19、BS8723、Zthes等電子詞表規(guī)范和標準。但這些標準一方面未能擺脫傳統(tǒng)詞表的模式,另一方面不能為不同知識組織系統(tǒng)的共享、交互和集成提供一個解決方案。W3C發(fā)布的SKOS推薦標準為詞表的描述和集成映射提供了一個規(guī)范基礎,但SKOS的研究剛剛起步,基于RDF使其缺乏精確的描述能力,只能表示低層次的語義,概念之間的關系比較簡單、粗糙,需要面向具體領域細化語義關系類型,擴展SKOS概念描述的能力。在本研究中,針對“新能源汽車”領域術語概念的特點,我們提煉出了15種一級關系類型、76種二級關系類型(含互逆關系)用來細化概念關系。
(2)集成中的語義融合問題
知識組織系統(tǒng)集成并不僅僅是兩個同型詞表的簡單合并,而是要實現(xiàn)對不同知識組織系統(tǒng)中的詞、概念和關系的分析,消除各系統(tǒng)間的語義沖突,形成一致的集成詞表。在這一語義融合的過程中,一方面需要實現(xiàn)詞表在句法層、結構層和語義層的兼容互換和一致性處理,另一方面還需要借助于文本語料的挖掘來發(fā)現(xiàn)詞語之間未揭示出來的關聯(lián),并在領域?qū)<业妮o助下完成概念之間的關聯(lián)。語義融合是集成構建中最主要的問題,它包括概念的映射和語義關系的選擇、調(diào)整和發(fā)現(xiàn),其中重點要解決的問題有[7]:
①同義詞挖掘和多義詞消歧。跨領域、多來源知識組織系統(tǒng)集成中,不可避免會遇到同義詞和多義詞問題,同義詞的挖掘和多義詞的消歧這兩類問題可以劃歸為字形句法層面的融合問題。
②概念映射的建立。不同來源的術語概念在集成時,除了建立詞形上的一致,還要進行概念上的映射,把不同概念之間的映射關系建立映射文件,以作為后續(xù)調(diào)整詞庫結構和生成集成基礎詞庫的依據(jù)。概念映射是一項工作量巨大的任務,如果完全依賴人工完成將是不可想象的,圖6-1為筆者根據(jù)S.Faro等人的報告羅列出的常用概念映射方法,雖然有些方法并不適用于漢語,但基于多方法集成的概念映射關系建立將是知識組織系統(tǒng)互操作和術語映射的一個重要方法。圖6-3將映射方法分為三大類型:詞匯層、結構層和語義層,這種劃分與知識組織系統(tǒng)互操作的實現(xiàn)層次接近[13]。其中詞匯層的實現(xiàn)較簡單,主要基于字面和詞匯結構來實現(xiàn),是一種基于字面相似發(fā)現(xiàn)相似術語而未必是概念上的等同;結構層主要基于術語概念在原有知識組織系統(tǒng)中的相關信息(比如同義詞、上下位詞、注釋等)來發(fā)現(xiàn)或推導出一定的關聯(lián);而語義層的映射則主要依賴外部資源,如語料或其他語義詞典來計算術語的概念相關度,從而建立映射關系。
③概念合并時原有詞匯關系的處理。同一組詞匯在不同的知識組織系統(tǒng)中可能會有不同的概念關系,比如在甲系統(tǒng)中是屬分關系,而在乙系統(tǒng)中是相關關系。需要建立一定的規(guī)則來選擇和調(diào)整這些概念之間的關系,以形成集成構建的新知識組織系統(tǒng)自身的概念體系,這也是集成構建的領域知識組織系統(tǒng)將來作為獨立知識組織工具使用的一個基本要求。
④新關系的發(fā)現(xiàn)。集成構建知識組織系統(tǒng)不僅僅是對已有詞匯關系的選擇和調(diào)整,更重要的是通過對語料數(shù)據(jù)的挖掘,發(fā)現(xiàn)跨領域、多來源的術語概念之間的關系,在領域?qū)<业妮o助下,完成新的概念語義關系的發(fā)現(xiàn)。
⑤融合后的一致性處理。語義融合后要保證新得到知識組織系統(tǒng)內(nèi)部結構的一致性,避免邏輯錯誤存在。
圖6-3 映射方法分類
圖表來源:S.Faro,E.Francesconi,V.Sandrucci.Thesauri KOS analysis and selected thesaurus mapping methodology on the project case-study [C].ITTIG-CNR,Luxembourg,2007.
(3)當用詞篩選
如果需要在多知識組織系統(tǒng)集成的基礎之上形成面向具體應用的新的領域知識組織系統(tǒng),那么如何判定篩選當用詞、形成當用詞表,將是知識組織系統(tǒng)集成構建中不可回避的一個問題。所謂當用詞表是指當前正在使用的詞匯(當用詞)構成的詞表。在多來源詞表集成過程中,有些詞表由于編制年代久遠,其收錄的一些詞語已經(jīng)被淘汰或被新詞取代,那么這些詞再收錄到詞表中既無益于提供標引、檢索和術語服務,又會增加詞表負擔。原來的敘詞表選詞原則是否適用,是否還是依賴于專家智慧選詞,是否需要構建和怎樣構建一個自適應的選詞模型將是通過集成創(chuàng)建詞表應研究的問題。
(4)集成后的領域知識組織系統(tǒng)評價
通過集成構建而成的領域知識組織系統(tǒng)雖然也是語詞概念及其關系的集合,但它需要具備三方面的功能:①與原知識組織系統(tǒng)保持兼容性;②作為一個獨立的知識組織工具使用;③作為面向具體應用的領域高級知識組織系統(tǒng)構建的基礎詞表。同時,基于集成構建的領域知識組織系統(tǒng)應具備如下的實踐意義:①提高跨系統(tǒng)檢索的性能;②擴展知識組織系統(tǒng)的互操作性;③擴展領域知識組織系統(tǒng)的覆蓋領域和學科深度。因此,從集成構建的領域知識組織系統(tǒng)的功能和實踐意義來看,對其評價不能完全采用一般敘詞表的評價標準,而應面向其具體功能和實踐來進行性能評價,設計針對其作為網(wǎng)絡環(huán)境中的知識組織系統(tǒng)的相應評價指標,詳細評價指標內(nèi)容構建將在第7章論述。
參考文獻
[1]李寧,宋文.對于知識組織體系概念以及構建模式的一些思考[J].圖書情報工作,2005,49(10):37~40
[2]Lancaster,F(xiàn).Wilfrid;Smith,Linda C.Compatibility issues affecting information systems and services[C].PGI—33/WS/23,Paris,Unesco General Information Programme,1983
[3]Dachelet R.Multilingual querying and multilingual thesauri in Aquarelle [R].Technical Report,INRIA-Aquarelle,1997
[4]Marcia Lei Zeng,Lois Mai Chan.Trends and issues in establishing interoperability among knowledge organization systems.Journal of the American Society for Information Science and Technology[J].2004,55(5):377~395
[5]王軍,張麗.網(wǎng)絡知識組織系統(tǒng)的研究現(xiàn)狀和發(fā)展趨勢[J].中國圖書館學報,2008(1):65~69
[6]司莉.知識組織系統(tǒng)的互操作及其實現(xiàn).現(xiàn)代圖書情報技術,2007(3):29~34
[7]朱禮軍,趙新力,喬曉東.跨領域多來源主題詞表集成與服務研究[J].現(xiàn)代圖書情報技術,2007(1):20~24
[8]Doerr,M.Semantic problems of thesaurus mapping[J/OL].Journal of Digital Information,2001,1(8).[2009-08-02]http://jodi.ecs.soton.ac.uk/Articles/v01/i08/Doerr/
[9]W3C.SKOS simple knowledge organization system primer[OL].[2009-8-23]http://www.w3.org/TR/skos-primer/#sectransitivebroader
[10]W3C.SKOS simple knowledge organization system reference[OL].[2009-8-23]http://www.w3.org/TR/skos-reference/#mapping
[11]Hafedh Mili,Roy Rada.Merging thesauri:principles and evaluation [J].IEEE transactions on pattern analysis and machine intelligence,1988,10(2):204~220
[12]Libo Eric Si,Ann O'Brien,Steve Probets.Integration of distributed terminology resources to facilitate subject cross-browsing for library portal systems[C/OL].ISKO UK2009.London,2009,6.[2009-08-23]http://www.iskouk.org/conf2009/papers/si_ISKOUK2009.pdf
[13]S.Faro,E.Francesconi,V.Sandrucci.Thesauri KOS analysis and selected thesaurus mapping methodology on the project case-study[C].ITTIG-CNR,Luxembourg,2007
免責聲明:以上內(nèi)容源自網(wǎng)絡,版權歸原作者所有,如有侵犯您的原創(chuàng)版權請告知,我們將盡快刪除相關內(nèi)容。