集成詞庫的設(shè)計
4.1 集成詞庫的設(shè)計
4.1.1 集成詞庫構(gòu)建步驟
集成詞庫的具體構(gòu)建過程包括以下幾個步驟:
(1)選擇語料庫,獲取實驗數(shù)據(jù)。詞庫詞源由現(xiàn)有的詞表供給。選擇中外著名的教育敘詞表、教育分類表以及綜合性詞表或分類表中的教育大類。對于有電子版本的詞表,通過預(yù)處理,規(guī)范其格式,將其數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫利用;對于沒有電子版本的詞表,采用掃描識別或手工錄入的方法來獲取數(shù)據(jù)。
(2)通過不同詞表的互操作,完成詞庫的構(gòu)建。實現(xiàn)不同詞表到《中分表》的互操作,包括分類法與《中圖法》,主題詞表與《中分表》主題部分以及受控詞表與自然語言的互操作三部分。各詞表之間的互操作技術(shù)是本系統(tǒng)的研究重點,將在后面作詳細(xì)介紹。
(3)建立詞庫管理和應(yīng)用系統(tǒng),將互操作結(jié)果可視化顯示。為了用戶更好地瀏覽和利用詞庫中的詞匯數(shù)據(jù),實現(xiàn)詞庫的信息交換和信息再利用,采用基于數(shù)據(jù)庫的單機(jī)模式、XML元數(shù)據(jù)格式及基于本體構(gòu)建工具等方式對數(shù)據(jù)進(jìn)行可視化顯示。在詞庫的基礎(chǔ)上設(shè)計系統(tǒng)界面,建立詞庫管理和應(yīng)用系統(tǒng),最終用戶可以以瀏覽或查找的方式,通過《中圖法》分類號查看與之兼容的分類法信息,或者通過《中分表》主題詞查看與之兼容的主題詞表的信息,還可以直接通過自然語言查詢,系統(tǒng)為其轉(zhuǎn)換到對應(yīng)或相關(guān)的《中分表》分類號或主題詞,進(jìn)而再查看其他對應(yīng)詞表的相關(guān)信息。
綜上所述,集成詞庫構(gòu)建的主要流程如下圖所示:
圖4-1 教育集成詞庫的構(gòu)建流程圖
4.1.2 實驗數(shù)據(jù)的分析和獲取
目前國內(nèi)外含教育數(shù)據(jù)的分類表和主題詞表有很多,經(jīng)過分析比較,選取其中常用的、有代表性的幾部分類表和敘詞表構(gòu)建詞庫??晒┻x擇的詞表有《中分表》(教育類)、《中國科學(xué)院圖書館圖書分類法》(教育類)、《杜威十進(jìn)分類法》(教育類)、《教育主題詞表》、《社會科學(xué)檢索詞表》(教育類)以及從教育大辭典、CNMARC中抽取的教育類關(guān)鍵詞或關(guān)鍵詞串等數(shù)據(jù)。
(1)《中分表》
《中分表》是在《中圖法》(第三版,含《中國圖書資料分類法》)類目與《漢表》主題詞對應(yīng)的基礎(chǔ)上,將分類法與主題法、先組式與后組式融為一體的一種新型的受控詞表。本系統(tǒng)選取《中分表》作集成詞庫的核心,首先,《中分表》作為我國最主要的分類主題一體化詞表,在國內(nèi)有著獨特的地位,有著最廣泛的影響和最眾多的用戶,現(xiàn)在大多數(shù)的圖書館都采用《中分表》來類分、標(biāo)引圖書。第二,《中分表》實際上已經(jīng)起到在不同程度上兼容各種專業(yè)分類表和敘詞表的作用。第三,《中分表》本身就屬于一種將分類語言和主題語言融為一體的集成詞表,它的兼容模式易于擴(kuò)充和發(fā)展,而且適應(yīng)性廣。第四,《中分表》(第二版)電子版剛剛發(fā)行,有利于我們直接獲取數(shù)據(jù)。
(2)《中國科學(xué)院圖書館圖書分類法》
《中國科學(xué)院圖書館圖書分類法》(簡稱《科圖法》)是我國目前通用的分類法之一?!犊茍D法》自出版以來,受到國內(nèi)外圖書情報界和廣大讀者的關(guān)注。它的特點是科學(xué)系統(tǒng)比較強,標(biāo)記制度單純簡潔,編制體例清楚,結(jié)構(gòu)比較完整,能夠類分中外、古今圖書,實用性比較好2。所以《科圖法》在80、90年代得到廣泛應(yīng)用,主要被中國科學(xué)院系統(tǒng)圖書館、高等院校圖書館、廠礦企業(yè)圖書館以及科研系統(tǒng)文獻(xiàn)情報機(jī)構(gòu)所采用。
隨著《中圖法》的出版發(fā)行及流通使用,很多原來使用《科圖法》的圖書館都紛紛改用《中圖法》來類分圖書,這樣就形成了不同的文獻(xiàn)藏書組織體系,為圖書館藏書和讀者借閱書籍帶來很多麻煩。這時就需要有一種轉(zhuǎn)換機(jī)制可以實現(xiàn)《科圖法》和《中圖法》的互操作,使采用不同分類號類分的圖書集中收藏,便于讀者查詢和借閱。所以本文選取《科圖法》教育類作為實驗數(shù)據(jù)之一,實現(xiàn)《科圖法》到《中圖法》的互操作,用戶只要掌握《中圖法》的分類號,就可以十分迅速、方便地得到相應(yīng)的《科圖法》的分類號。
(3)《杜威十進(jìn)分類法》(DDC)
DDC是世界上流行最廣、影響最大的圖書分類法,經(jīng)過逐步地修訂、補充、提高和完善,先后開發(fā)和出版了“電子杜威”、“視窗杜威”、印刷版、光盤版和網(wǎng)絡(luò)版WebDewey,至今已出版到第22版。目前,DDC已經(jīng)被翻譯成30多種語言,被全球超過135個國家和地區(qū)的圖書館采用來組織館藏文獻(xiàn);并且DDC已與多部類表、詞表實現(xiàn)了互操作。DDC是全球應(yīng)用最廣的分類法,而《中圖法》是我國應(yīng)用最廣的分類法,所以非常有必要實現(xiàn)二者的互操作,從而更好地實現(xiàn)中、英文文獻(xiàn)的共享。目前,很多OPAC(圖書館公共查詢目錄)數(shù)據(jù)都同時包括DDC分類號和《中圖法》分類號,以及DDC中文版的翻譯,都為該系統(tǒng)的研制提供了有利條件。所以選取DDC教育類目作為實驗數(shù)據(jù)之一,實現(xiàn)DDC到《中圖法》的互操作,用戶可以通過《中圖法》的分類號找到相應(yīng)的DDC的分類號。
(4)《教育主題詞表》
《教育主題詞表》(以下簡稱《教詞表》),是我國第一部全國通用的教育專業(yè)敘詞表。它規(guī)范了教育文獻(xiàn)的主題標(biāo)引和檢索用語,為編制主題檢索工具,建立教育文獻(xiàn)數(shù)據(jù)庫,實現(xiàn)聯(lián)機(jī)檢索和資源共享奠定了良好的基礎(chǔ)3。它是由教育專業(yè)人員與受控詞表專業(yè)人員合作,采用分面敘詞表模式編制而成的一體化詞表。
《教詞表》由字順敘詞表、分面分類表、英漢對照索引、輪排索引、附表5部分構(gòu)成,其中,字順敘詞表是《教詞表》的主要部分,收敘詞3 011個、非敘詞691個,共收詞3 702個,內(nèi)容涉及教育科學(xué)的各領(lǐng)域和若干相關(guān)學(xué)科;其敘詞款目中有款目詞、分類號、詞號、英譯名、注釋及各參照項(代、屬、分、參);各款目均按款目詞的漢語拼音,用逐字法排列4?!督淘~表》是我國第一部教育專業(yè)敘詞表,本系統(tǒng)目的是建立教育詞庫,所以首選《教詞表》數(shù)據(jù)。
(5)《社會科學(xué)檢索詞表》
《社會科學(xué)檢索詞表》(以下簡稱《社科表》),是我國第一部專供社會科學(xué)資料標(biāo)引和檢索的工具書。該詞表采用了分類主題一體化的編制模式。全表分字順表、分類表、英漢對照索引、專有名詞索引及輪排索引五部分,共收詞30 000個,是我國社會科學(xué)領(lǐng)域第一部大型的綜合性敘詞表,其中的Q大類為教育大類。選取《社科表》作為一種主題詞表,實現(xiàn)它到《中分表》的互操作,從而擴(kuò)充詞庫,完成詞庫的構(gòu)建。
(6)同現(xiàn)數(shù)據(jù)獲取
本系統(tǒng)擬采用基于同現(xiàn)信息的統(tǒng)計方法來實現(xiàn)不同分類法之間的互操作,所以需要不同分類法的同現(xiàn)數(shù)據(jù)?!吨袌D法》和《科圖法》作為國內(nèi)兩大主要分類法,在中文的CNMARC記錄中都有標(biāo)記,690字段是《中圖法》類號,692字段是《科圖法》類號。因為需要教育類數(shù)據(jù),所以在南師大圖書館中下載一批中文教育類的MARC數(shù)據(jù),從中提取出同時含有690和692字段的記錄。
通過對各高校圖書館外文書籍編目情況的調(diào)查和了解,一般圖書館對外文書籍都采用UNMARC格式編目,包括DDC分類號和《中圖法》分類號,082字段是DDC類號,093字段是《中圖法》類號。因為各個學(xué)校外文書籍?dāng)?shù)量有限,而教育類更是少之甚少,所以從多個學(xué)校下載外文教育類的MARC數(shù)據(jù),從中提取出082和093字段,共收集到記錄1 800條,經(jīng)過整理合并后得到1 326條記錄。
(7)自然語言數(shù)據(jù)的獲取
自然語言主要是來自原始文獻(xiàn)中反映文獻(xiàn)主題的名詞、概念、術(shù)語等,是不經(jīng)過任何控制的關(guān)鍵詞。本系統(tǒng)的關(guān)鍵詞來源包括如下幾部分:一是主題詞表中的非主題詞,包括《中分表》、《教詞表》及《社科表》中的代項詞;二是從《教育大辭典》、網(wǎng)頁等文檔中提取的語詞以及用模式匹配識別出的同義詞;三是從本實驗室開發(fā)的“基于知識庫的中文信息自動標(biāo)引和自動分類系統(tǒng)”的知識庫中抽取的關(guān)鍵詞串;另外還可以由用戶自己輸入關(guān)鍵詞,包括一些新詞、未登錄詞等。
4.1.3 集成詞庫的結(jié)構(gòu)
教育集成詞庫是由若干詞表構(gòu)成的一個兼容體系,是以《中分表》為核心,實現(xiàn)與各種分類語言、主題語言及自然語言之間的互操作。這個集成詞庫可以由多種形式、多種結(jié)構(gòu)的眾多兼容工具組成,本系統(tǒng)采用兩種主要兼容結(jié)構(gòu)形式:
字順兼容矩陣:以每個主題概念為款目詞縱向展示,即將《中分表》中的每個主題詞或主題詞串按字順方式顯示,并標(biāo)明其相應(yīng)的《中圖法》分類號,把其他參與兼容的主題詞表橫向展示,統(tǒng)統(tǒng)與《中分表》的主題詞或主題詞串相對照,列出其等值兼容或近似兼容的一個或多個主題詞。具體格式如下:
分類兼容矩陣:以《中圖法》分類號為主干豎向展示,即按分類號順序顯示《中圖法》類目,并列出其對應(yīng)的《中分表》中的專指主題詞和附屬主題詞,把其他參與兼容的分類表和關(guān)鍵詞橫向展示。將參與兼容的分類表類號與《中圖法》的類號相對照,列出其等值兼容或近似兼容的概念;并將與《中圖法》類號相對應(yīng)的關(guān)鍵詞列出。具體格式如下:
4.1.4 集成詞庫構(gòu)建系統(tǒng)模塊
根據(jù)集成詞庫構(gòu)建的基本原理和流程,構(gòu)建系統(tǒng)模塊分為:分類法互操作,主題法互操作,數(shù)據(jù)查看,XML格式等模塊,如圖4-2所示。
圖4-2 集成詞庫構(gòu)建系統(tǒng)模塊結(jié)構(gòu)圖
(1)分類法互操作模塊
該模塊主要是完成不同分類法與《中圖法》的互操作,具體技術(shù)包括同現(xiàn)映射技術(shù)及基于類目相似度映射技術(shù)兩種,本系統(tǒng)主要實現(xiàn)了《科圖法》、DDC與《中圖法》的互操作,最終將兩種映射結(jié)果合并去重,存儲在分類兼容矩陣中。
(2)主題法互操作模塊
該模塊主要是完成不同主題法與《中分表》主題詞的互操作,具體技術(shù)包括基于結(jié)構(gòu)的自動匹配技術(shù)和基于同義詞表的語詞相似度匹配技術(shù),本系統(tǒng)分別實現(xiàn)了《教詞表》、《社科表》與《中分表》的互操作,映射結(jié)果合并去重后存儲在主題兼容矩陣中。
(3)數(shù)據(jù)查看模塊
該模塊主要是基于上述兩步生成的分類兼容矩陣和主題兼容矩陣,進(jìn)行數(shù)據(jù)的瀏覽和檢索。瀏覽功能主要是通過《中圖法》分類號展開,可以查看其對應(yīng)的分類表相關(guān)信息,還可以查看該分類號對應(yīng)下的主題詞與其他主題詞表的互操作信息;檢索功能提供了從分類號、主題詞、關(guān)鍵詞三種途徑進(jìn)行檢索,此處檢索的是《中分表》中的分類號和主題詞,而關(guān)鍵詞可以是用戶輸入的任意詞,系統(tǒng)為其提供相關(guān)的受控詞表。
(4)XML格式
該模塊主要是實現(xiàn)數(shù)據(jù)庫到XML文檔的轉(zhuǎn)換,包括兩種格式:subject格式和subject-description格式,分別將分類兼容矩陣和主題兼容矩陣的數(shù)據(jù)進(jìn)行合并,以XML文檔格式提供給用戶進(jìn)行瀏覽。
不同分類法的類目、主題法的主題詞及自然語言的關(guān)鍵詞所表達(dá)概念的相似性或相關(guān)性是實現(xiàn)分類法、主題法、自然語言等互操作的理論基礎(chǔ)。實現(xiàn)不同受控詞表的互操作,就是要對這些受控詞表的標(biāo)識,即類目、主題詞及關(guān)鍵詞之間建立關(guān)聯(lián),確定它們的對應(yīng)關(guān)系。
本系統(tǒng)綜合國內(nèi)外實現(xiàn)互操作的一些常用方法,如自動匹配、中介詞典、集合詞表、敘詞詞庫、映射、翻譯等方法,結(jié)合計算機(jī)技術(shù),做一些改進(jìn)和創(chuàng)新,通過解決各種受控詞表之間的互操作,完成教育集成詞庫的構(gòu)建。下面具體介紹不同分類語言、主題語言及自然語言和受控詞表之間互操作的技術(shù)。
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。