敘詞表自動構(gòu)建理論依據(jù)
4.1 敘詞表自動構(gòu)建理論依據(jù)
(1)詞匯控制理論
控制是情報檢索語言的靈魂??刂剖且环N聯(lián)系與調(diào)節(jié),使事物之間、系統(tǒng)之間、部門之間相互作用、相互制約,克服隨機因素,增進協(xié)調(diào),追求和諧,從而達到預期的目的[1]。在敘詞表的編制過程集中體現(xiàn)在詞匯選擇、同義詞控制、詞形控制及詞間關(guān)系控制等方面。
對詞匯選擇的控制,指為了表達明確并保障檢索效率,敘詞表對選詞原則、詞匯類型、收詞范圍都有明確的規(guī)定。同義詞控制指在表達相同概念的不同詞匯和詞組中,根據(jù)需要規(guī)定其中一個作為標引用詞,即敘詞,其余作為非敘詞即入口詞,使得一個概念對應一個敘詞,從而把其他同義詞和準同義詞統(tǒng)一在該敘詞之下,以便用戶檢索時,檢索系統(tǒng)能夠提取出包含此概念的所有相關(guān)文獻。詞形控制主要指對同形異義詞和詞義含糊的詞匯的區(qū)分,以明確詞義,避免誤檢。在敘詞表中通常采用加限定詞或注釋的方法來說明詞義。詞間關(guān)系控制主要指對等同關(guān)系、屬分關(guān)系和相關(guān)關(guān)系的詞匯進行控制,便于擴縮檢。
在以網(wǎng)絡搜索引擎為代表的自然語言檢索橫行天下的今天,有人認為高度控制的情報檢索語言將是明日黃花。事實上,基于字面匹配原理的自然語言檢索已不可避免地暴露出其固有頑疾——它雖然具有較高的檢全率,但檢準率卻很低下,漏檢和誤檢現(xiàn)象普遍。而隨著信息量不斷激增,未來網(wǎng)絡用戶更希望能夠得到高質(zhì)量的準確信息,對檢準率的要求會越來越高。利用規(guī)范化控制的敘詞表是保證檢準率的重要手段之一。第二章中“敘詞表在網(wǎng)絡環(huán)境中的應用現(xiàn)狀和趨勢”小節(jié)所列各項數(shù)據(jù)就是很好的證明。
但是,我們不得不承認對詞匯的高度控制在一定程度上影響了敘詞表的易用性,限制了其在網(wǎng)絡檢索中的應用。為了適應新的信息環(huán)境,敘詞表的控制機制也需要作出適當調(diào)整,提高易用性和靈活度。網(wǎng)絡檢索的發(fā)展趨勢不是完全不受控制的自然語言檢索,而是主題語言和自然語言的一體化,能夠取長補短,從而取得最好的檢索效果。
(2)概念空間理論
概念及概念之間的語義關(guān)聯(lián)表達了人類關(guān)于某一特定領(lǐng)域的知識框架系統(tǒng),為詞表自動構(gòu)建提供了理論依據(jù)。
人類知識關(guān)于客觀事物與抽象概念以及它們的關(guān)聯(lián)紛繁復雜,不在同一個層面上,反映到主題詞所代表的概念則表現(xiàn)為復雜的層次關(guān)系和網(wǎng)狀關(guān)系。這些詞所代表的概念連同詞匯之間的關(guān)聯(lián)就能反映某一特定領(lǐng)域的知識構(gòu)架。根據(jù)Belkin的研究[2],信息檢索用戶在表達他們的信息需求時,都存在“知識不規(guī)則狀態(tài)”(Anomalous States of Knowledge)。Belkin研制的文獻檢索系統(tǒng)把檢索者的知識狀態(tài)表達為詞匯之間的關(guān)聯(lián)網(wǎng)絡,從該網(wǎng)絡的結(jié)構(gòu)和特點可以識別知識狀態(tài)的不規(guī)則之處。由此他認為,某領(lǐng)域的詞匯關(guān)聯(lián)網(wǎng)絡能夠有效表達個體對該主題領(lǐng)域的知識狀態(tài)。另外,許多人類記憶關(guān)聯(lián)模型均采用了以主題相互連接的網(wǎng)絡框架來表達知識,其中,Anderson關(guān)于人類記憶的理論最具代表性:人們記憶的并不是口頭交流的確切措詞,而是詞匯的潛在含義。主題(Proposition)是代表著承載含義的命題(Assertion)的最小知識單元。記憶能用這樣的主題網(wǎng)絡表達出來,能引導到特定信息的關(guān)聯(lián)路徑強度決定發(fā)散激活的程度。此發(fā)散激活理論(Spreading Activation)影響了許多以語義網(wǎng)絡為基礎(chǔ)的信息檢索系統(tǒng)的設計。Chen所提出的詞表自動構(gòu)建理論和方法均基于該理論,把詞表視為一個語義網(wǎng)絡,應用人工智能領(lǐng)域的發(fā)散激活算法,找出某個節(jié)點(概念)的強相關(guān)概念[3]。
詞表可以視為一個“概念空間”,一個類似人類詞語聯(lián)想模式的網(wǎng)絡,網(wǎng)絡的節(jié)點是各種詞語、術(shù)語或概念。而概念之間的聯(lián)系由帶有權(quán)重的邊來表示。這些研究為詞表自動構(gòu)建提供了理論依據(jù)。
(3)語言學理論
語言學的現(xiàn)有理論為情報檢索語言的研究提供了理論規(guī)范。我國著名語言學家趙世開認為,編制一部具有準確性和高效性的檢索主題詞表需要語言學家協(xié)同有關(guān)專家共同研究[4]。在敘詞表自動構(gòu)建研究中,漢語字面相似性特點和漢語行文特點,為實現(xiàn)自動識別詞間關(guān)系提供重要的線索和依據(jù)。
漢語相關(guān)詞匯在構(gòu)詞上具有字面相似的特點,為實現(xiàn)漢語詞表自動構(gòu)建提供了有效途徑。根據(jù)相關(guān)漢語詞匯往往含有相同詞素這一漢語構(gòu)詞特點,可以實現(xiàn)按詞素聚集相關(guān)詞匯,輔助識別具有相關(guān)關(guān)系和同義關(guān)系的詞匯。詞素是構(gòu)成詞的最小單位,是不能再分割的意義單元。一個詞素一般由一到兩個漢字組成,個別由多個漢字組成,如:烏魯木齊。一個詞由一個或多個詞素構(gòu)成。根據(jù)漢語構(gòu)詞特點,一般來說,擁有相同詞素的詞匯或詞組具有某種語義關(guān)聯(lián),存在聚類現(xiàn)象(字面成簇現(xiàn)象),如:稅、稅務、稅收、所得稅等等。漢語的字面成族特點在情報檢索中具有重要的應用價值。張琪玉教授曾撰文討論利用字面相似特點聚類詞匯可以構(gòu)造粗泛的詞簇[5],宋明亮曾將字面相似聚類法應用于后控制詞表的動態(tài)維護[6]。
有學者統(tǒng)計,漢語敘詞表詞族內(nèi)的詞與族首詞詞根完全相同或部分相同的比例高達80%[7]。敘詞表是根據(jù)主題詞的主題概念屬性聚類成族,如果能充分利用漢語詞匯具有字面成族的特點,將是輔助詞匯聚類的好辦法。
表4-1 各敘詞表詞族字面成族情況[8]
另外,具有相同詞素的詞匯往往在語義上是相關(guān)的,如“稅收管理”與“稅收檢查”可以切分為詞素“稅收”、“管理”和“檢查”。據(jù)此設計詞素相似度系數(shù)的計算方法,可以據(jù)此識別相關(guān)詞匯。
利用漢語字面相似的特點實現(xiàn)詞匯的聚類,只能粗略地把一些字面上相似的詞或詞組聚集在一起,但因有些語義相關(guān)的詞匯并無字面相似特點,如“田賦”和“農(nóng)業(yè)稅”,因此,單純依靠字面相似性聚類詞匯是不可行的,只能作為一種計算機輔助聚類途徑,而真正的詞聚類應該是詞語概念層面上的聚類。
漢語行文特點也為詞間關(guān)系識別提供了有效途徑。中文文獻尤其是詞典等工具書是領(lǐng)域詞表收詞的重要來源,其對詞匯的定義等描述方式也為詞間關(guān)系識別提供了重要線索。中文詞匯的定義方式具有相似的模式,例如采用同義詞進行定義的方式常存在以下標志性語詞:“亦稱…”,“也稱…”,“簡稱…”,“…的簡稱”,“俗稱…”等。另外也存在用下位詞定義概念上較為寬泛的上位詞的情況,如:“…包括…”,“例如…”等。陸勇在其碩士論文中采用了模式匹配的方法[9],在機器學習這些模式以及人工總結(jié)模式的基礎(chǔ)上,可以識別提取出領(lǐng)域內(nèi)常用的名詞、術(shù)語以及它們之間的關(guān)系,并通過試驗證明該方法簡單實用,值得推廣。
(4)系統(tǒng)論原理
所謂“系統(tǒng)”是指由相互聯(lián)系、相互依賴的若干組成部分結(jié)合而成的具有特定功能的有機整體。從系統(tǒng)的觀點出發(fā),著重從整理與部分(要素)之間、整體與外部環(huán)境的相互聯(lián)系、相互作用、相互制約的關(guān)系中綜合地、精確地考察對象,以達到最佳地處理問題的一種方法[10]。①系統(tǒng)的整體性原則強調(diào)要素與系統(tǒng)之間是一個整體、不可分割;要素與環(huán)境及各要素之間相互聯(lián)系與作用,而使系統(tǒng)呈現(xiàn)出各單一要素所不具備的整體功能。②系統(tǒng)的聯(lián)系性原則強調(diào)系統(tǒng)內(nèi)部各要素之間的聯(lián)系,并通過這種聯(lián)系與相互作用來實現(xiàn)其整體功能、體現(xiàn)其整體屬性;強調(diào)系統(tǒng)與外部環(huán)境之間的聯(lián)系,并認為一定的環(huán)境是系統(tǒng)存在、發(fā)展和發(fā)揮其功能的重要條件,且系統(tǒng)在和外部環(huán)境相互聯(lián)系與作用的過程中必然會發(fā)生物質(zhì)、能量和信息的相互交換。③系統(tǒng)的有序性原則認為系統(tǒng)是多級別、多層次的有機結(jié)構(gòu),有序性越高,結(jié)構(gòu)與功能就越優(yōu)化。④系統(tǒng)的動態(tài)性原則強調(diào)系統(tǒng)隨時間而發(fā)生變化的規(guī)律,要求人們必須以動態(tài)的和發(fā)展的眼光和思維去認識、考察和把握一個系統(tǒng)及其分要素和子系統(tǒng)。
一部領(lǐng)域敘詞表就是一個完整的領(lǐng)域知識系統(tǒng)。它由若干概念按照一定方式組合而成,概念之間存在各種相互關(guān)系,對概念相互關(guān)系的揭示和組織方式影響整個敘詞表功能的有效發(fā)揮。敘詞表作為一個整體具有一定功能,當應用到信息檢索系統(tǒng)這個大環(huán)境中時,它起到一種橋梁作用,通過與檢索者和文獻對象之間的信息交換來完成整個信息檢索過程。
系統(tǒng)論原理可有效指導敘詞表自動構(gòu)建。系統(tǒng)的整體性原則指導收詞和選詞過程盡量使詞表收全學科領(lǐng)域的概念,并充分揭示概念之間的關(guān)系,形成領(lǐng)域知識概念體系,滿足用戶的信息檢索需求;系統(tǒng)的聯(lián)系性原則指導敘詞表構(gòu)建時要充分揭示概念之間的族性和等級關(guān)系、等同關(guān)系和相關(guān)關(guān)系,使得詞表能夠反映人類頭腦中的概念空間體系,同時詞表應該具有兼容性,支持互操作,提高標引質(zhì)量和檢索效率;系統(tǒng)的有序性原則指導所構(gòu)建的詞表,能夠以不同方式如字順表、詞族索引、范疇索引、分類表、輪排索引對概念進行序化和優(yōu)化,便于檢索使用;根據(jù)系統(tǒng)的動態(tài)性原則,需要考慮詞表是一個動態(tài)的有機體,隨著學科領(lǐng)域知識的增長和變化,其核心概念體系也會發(fā)生變化,敘詞表需要具有開放性和新詞識別功能,易于修改和維護。
免責聲明:以上內(nèi)容源自網(wǎng)絡,版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。