敘詞表自動構(gòu)建原則
4.2 敘詞表自動構(gòu)建原則
蘭開斯特(Lancaster)曾總結(jié)了編制詞表時要遵循的兩個最基本原則:文獻保障和用戶保障原則[11]。之后有學(xué)者提出的科學(xué)性、實用性、易用性、兼容性、系統(tǒng)性等原則均在此基礎(chǔ)上衍生得出。針對網(wǎng)絡(luò)應(yīng)用環(huán)境和網(wǎng)絡(luò)信息檢索用戶的特點,在自動構(gòu)建領(lǐng)域敘詞表時主要遵循文獻保障原則、用戶保障原則、規(guī)范化原則和易用性原則。
(1)文獻保障原則
英國圖書館學(xué)家休姆Hulme,E.W.于1911年提出文獻保障原則(Literary Warrant),當時主要指分類法必須有文獻保障,即分類法的類目必須根據(jù)文獻情況設(shè)立,有文獻必須有類目,也不能沒有文獻而空設(shè)類目,另外類目的細分程度受文獻的特點和數(shù)量支配。后來蘭卡斯特(Lancaster,F(xiàn).W.)對文獻保障原則的定義是:“若已知關(guān)于某一主題的文獻存在,則表述這個主題的術(shù)語就是有根據(jù)的,如果已知沒有文獻存在,則該術(shù)語是無根據(jù)的,不應(yīng)保留”[4]。簡單來講,文獻保障原則指僅當一個詞頻繁地出現(xiàn)在對于檢索來說是有益的、重要的文獻中時,詞表才予以收集。就是說,出現(xiàn)頻率較高的詞應(yīng)為敘詞表的主要候選詞。另外,在同義詞或近義詞之間通常選用出頻率最高的詞作為詞表正式詞。如上文所述,本文探討自動構(gòu)建敘詞表,主要應(yīng)用于網(wǎng)絡(luò)信息資源組織和檢索。在決定詞表收詞范圍時,首先從相關(guān)領(lǐng)域網(wǎng)站下載網(wǎng)頁,經(jīng)過文本轉(zhuǎn)換后導(dǎo)入文本庫中,再通過各種途徑收集領(lǐng)域語詞和概念并制成關(guān)鍵詞詞典,然后通過該詞典對文本庫進行切詞,同時統(tǒng)計詞頻,以文本庫總詞頻為主要依據(jù)選詞收詞。所以,自動構(gòu)建的敘詞表具有良好的文獻保證。
(2)用戶保障原則
用戶保障原則是指只有當情報機構(gòu)的用戶對某詞感興趣時,該詞才應(yīng)被收入詞表。也就是說,向情報機構(gòu)的潛在用戶收集那些代表其特定主題興趣的詞匯收入到詞表中。以往傳統(tǒng)敘詞表編制時,常通過向潛在用戶進行訪問或通過調(diào)查表進行書面調(diào)查來選取反映本專業(yè)興趣的詞匯。這種方法收集詞匯效率很低,而且不易實施,不適用于網(wǎng)絡(luò)環(huán)境中的詞表構(gòu)建。在網(wǎng)絡(luò)環(huán)境下,利用計算機程序從領(lǐng)域網(wǎng)絡(luò)檢索系統(tǒng)的用戶檢索日志中自動提取檢索策略中的詞匯并統(tǒng)計詞頻,是詞表收詞的一個重要途徑,但是需要相應(yīng)網(wǎng)站的合作,并需要長時間的積累才能實現(xiàn)。對于尚未使用檢索系統(tǒng)的領(lǐng)域網(wǎng)站,自動構(gòu)建的敘詞表可通過該方法不斷補充新詞,使得詞表具有良好的用戶保障。
(3)規(guī)范化原則
編制敘詞表需要參考和遵循國際和國內(nèi)主要敘詞表編制標準,保障詞表編制的科學(xué)性和詞表的可靠性、通用性和使用質(zhì)量,為兼容互換提供必要條件。自動構(gòu)建領(lǐng)域敘詞表時主要參考的標準有國際標準ISO 2788:1986(單語種敘詞表編輯和修訂指南),中國標準GB 13190-91(漢語敘詞表編制規(guī)則),ANSI/NISO Z39.19-2005《單語種敘詞表的編制、格式與管理指南》。這些標準對敘詞表收詞選詞、詞間關(guān)系種類和界定、參照系統(tǒng)、詞表體系結(jié)構(gòu)、存儲和顯示等方面都有詳細描述。網(wǎng)絡(luò)信息的增長使用戶對互聯(lián)網(wǎng)信息資源檢索的需求不斷增加,網(wǎng)絡(luò)信息檢索系統(tǒng)也越來越多地應(yīng)用了敘詞表,以支持用戶不同層次的檢索需求。因此敘詞表之間的互操作也愈加迫切,從而要求構(gòu)建敘詞表時更要注重規(guī)范化和標準化。
(4)易用性原則
易用性原則是針對自動構(gòu)建的敘詞表的使用環(huán)境和使用對象特征提出的。敘詞表的開發(fā)應(yīng)該以其使用的信息環(huán)境的性質(zhì)和需求為依據(jù),所以構(gòu)建詞表之前首先要對詞表使用環(huán)境和用戶特征進行深入的調(diào)查和研究,才能保障詞表的應(yīng)用效果[12]。自動構(gòu)建敘詞表的目的之一在于有效組織領(lǐng)域內(nèi)的網(wǎng)絡(luò)信息資源,提高網(wǎng)站檢索效率,實現(xiàn)概念檢索。不同于傳統(tǒng)信息檢索系統(tǒng),網(wǎng)絡(luò)詞表應(yīng)用環(huán)境和用戶存在以下特征:
①詞表的使用者由以前專業(yè)的信息檢索專家轉(zhuǎn)變?yōu)閬碜圆煌A層,具有不同教育背景的普通老百姓,很多幾乎沒有檢索經(jīng)驗;
②網(wǎng)絡(luò)信息更新迅速,導(dǎo)致新術(shù)語、新概念層出不窮,使得領(lǐng)域詞匯更新頻繁;
③網(wǎng)絡(luò)環(huán)境中信息均以電子格式存儲和流通,對詞表的容量不再需要刻意壓縮,從而追求概念表達的精確性,保障檢準率。
針對以上特點,自動構(gòu)建敘詞表時要遵守易用性原則,主要體現(xiàn)在以下幾個方面:
①詞表收詞以實用為標準,收錄領(lǐng)域內(nèi)新詞和經(jīng)常使用的相關(guān)領(lǐng)域詞匯,保障詞表的時效性;同時收錄綜合性詞表中的本領(lǐng)域詞匯,保障詞表的通用性和兼容性;收詞以本領(lǐng)域?qū)I(yè)用詞為主,兼顧相關(guān)業(yè)務(wù)領(lǐng)域,有一定的收詞深度。
②不刻意追求復(fù)雜繁瑣的詞間關(guān)系。如把實例關(guān)系和分面關(guān)系計入等級關(guān)系,更符合大眾用戶的習慣。
③增加自然語言入口,增強詞表自然語言與人工語言的結(jié)合與統(tǒng)一,便于用戶網(wǎng)上查詢。
④以電子形式存儲詞表到數(shù)據(jù)庫中,更易于實現(xiàn)與檢索系統(tǒng)的接口交互。
⑤詞表要易于維護和更新,能反映最新的領(lǐng)域知識體系框架。
免責聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。