精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁 ? 理論教育 ?并行文獻(xiàn)數(shù)據(jù)庫的構(gòu)建

        并行文獻(xiàn)數(shù)據(jù)庫的構(gòu)建

        時間:2023-02-27 理論教育 版權(quán)反饋
        【摘要】:但事實上難以奏效,主要是因為這些數(shù)據(jù)含有大量的無效數(shù)據(jù),從而難以有效地指導(dǎo)主題標(biāo)引和分類標(biāo)引的對應(yīng)轉(zhuǎn)換。中刊庫已成為我國一個大型的綜合性文獻(xiàn)檢索系統(tǒng)。
        并行文獻(xiàn)數(shù)據(jù)庫的構(gòu)建_情報檢索語言的兼容轉(zhuǎn)換

        4.1 并行文獻(xiàn)數(shù)據(jù)庫的構(gòu)建

        以經(jīng)濟(jì)學(xué)科為例,大型中文文獻(xiàn)數(shù)據(jù)庫“中文社科報刊篇名數(shù)據(jù)庫”、“部分圖書館制作的MARMARC”、“經(jīng)濟(jì)學(xué)科論文數(shù)據(jù)庫”、“中文科技期刊數(shù)據(jù)庫”、“中文圖書檢索系統(tǒng)(MARC)”等都收集經(jīng)濟(jì)學(xué)相關(guān)文獻(xiàn)資料。這些文獻(xiàn)數(shù)據(jù)庫主要采用分類標(biāo)引和主題標(biāo)引,但是標(biāo)引形式存在一定的差異(見表4-1)。

        表4-1 我國包含經(jīng)濟(jì)信息的大型文獻(xiàn)數(shù)據(jù)庫

        img66

        從主題標(biāo)引的形式來看,上述文獻(xiàn)數(shù)據(jù)庫分為兩種:一種是主題詞串形式標(biāo)引;一種是散標(biāo)形式,未形成主題詞串,也就是采用單個主題詞標(biāo)引。一般來說,單個主題詞很難準(zhǔn)確、完整地表達(dá)一個文獻(xiàn)主題。在大多數(shù)情況下,只有采用主題詞串形式才能滿足標(biāo)引和檢索的需求。目前,我國只有中文圖書檢索系統(tǒng)(MARC)和部分圖書館制作的MARC數(shù)據(jù)庫同時進(jìn)行分類標(biāo)引和含主題詞串的主題標(biāo)引。從理論上講,這些標(biāo)引數(shù)據(jù)均可以直接用于主題標(biāo)引和分類標(biāo)引的對應(yīng)轉(zhuǎn)換。但事實上難以奏效,主要是因為這些數(shù)據(jù)含有大量的無效數(shù)據(jù),從而難以有效地指導(dǎo)主題標(biāo)引和分類標(biāo)引的對應(yīng)轉(zhuǎn)換。

        從標(biāo)引對象來看,中文MARC數(shù)據(jù)的標(biāo)引對象主要是圖書,光盤文獻(xiàn)數(shù)據(jù)庫的標(biāo)引對象主要是報刊,后者的主題比書目文獻(xiàn)要細(xì)化得多。因此,根據(jù)MARC標(biāo)引數(shù)據(jù)生成的分類號—主題詞對照數(shù)據(jù)庫不能適應(yīng)報刊文獻(xiàn)的標(biāo)引。一個能夠有效地適應(yīng)機(jī)器標(biāo)引和檢索的分類號—主題詞轉(zhuǎn)換系統(tǒng),必須同時滿足圖書文獻(xiàn)和報刊文獻(xiàn)的標(biāo)引轉(zhuǎn)換和檢索策略轉(zhuǎn)換。而我國的報刊文獻(xiàn)數(shù)據(jù)庫往往只有分類標(biāo)引、散標(biāo)形式的關(guān)鍵詞標(biāo)引或主題詞標(biāo)引。根據(jù)這些數(shù)據(jù)庫直接生成的分類號—主題詞對照數(shù)據(jù)庫難以用于報刊文獻(xiàn)的分類標(biāo)引與主題標(biāo)引數(shù)據(jù)的轉(zhuǎn)換。

        以《中文社科報刊篇名數(shù)據(jù)庫》、《國家新書目》(MARC)和《中文科技期刊數(shù)據(jù)庫》三種較有代表性的大型報刊文獻(xiàn)數(shù)據(jù)庫為實驗樣本,生成分類號—主題詞(串)對照數(shù)據(jù)庫,以建立分類表與敘詞表轉(zhuǎn)換系統(tǒng)。實驗樣本包括:

        (1)《中文社科報刊篇名數(shù)據(jù)庫》(簡稱“上海庫”):由上海圖書館文達(dá)信息公司《全國報刊索引》編輯部負(fù)責(zé)研制和編輯。1993—1997年數(shù)據(jù)庫共收錄全國哲學(xué)社會科學(xué)期刊4 500種,報紙170余種,基本上覆蓋了全國郵發(fā)和非郵發(fā)的報刊。內(nèi)容涉及馬列主義、毛澤東思想、哲學(xué)、社會科學(xué)和人文科學(xué)等各個學(xué)科,數(shù)據(jù)量超過90萬條。使用《中圖法》進(jìn)行分類標(biāo)引,參照《中國分類主題詞表》進(jìn)行散標(biāo)形式的主題標(biāo)引。

        (2)《中文圖書檢索系統(tǒng)》(MARC):由北京圖書館等單位制作,收錄了1975—1997年的圖書館文獻(xiàn),數(shù)據(jù)量超過49萬條,包括社會科學(xué)和自然科學(xué)。采用《中圖法》和《科圖法》進(jìn)行分類標(biāo)引,采用《漢表》進(jìn)行主題詞串形式的主題標(biāo)引。

        (3)《中文科技期刊數(shù)據(jù)庫》(簡稱“中刊庫”):由國家科委西南信息中心編制。1989年開始創(chuàng)建,收錄期刊約6 000余種,數(shù)據(jù)達(dá)200多萬條,其中經(jīng)濟(jì)類數(shù)據(jù)達(dá)20萬條。中刊庫已成為我國一個大型的綜合性文獻(xiàn)檢索系統(tǒng)。使用《中圖法》進(jìn)行分類標(biāo)引,采用散標(biāo)形式的關(guān)鍵詞進(jìn)行主題標(biāo)引。

        從兩個數(shù)據(jù)庫中下載F83和F82金融銀行類的所有記錄(共52 323條記錄,其中上海庫37 654條,中刊庫14 669條),抽取出《中圖法》分類號、主題詞或者關(guān)鍵詞字段,生成源數(shù)據(jù)庫,部分記錄參見附錄一。中刊庫采用關(guān)鍵詞標(biāo)引,故將所有主題詞和關(guān)鍵詞統(tǒng)稱為標(biāo)引詞。其記錄格式如表4-2所示。

        表4-2 中刊庫標(biāo)引樣例

        img67

        *注:中刊庫標(biāo)引詞間隔符號為空格。

        進(jìn)行主題標(biāo)引和關(guān)鍵詞標(biāo)引時,通常按一定的次序來組織標(biāo)引詞,形成標(biāo)引款目。但一個分類號往往只與其中的一個標(biāo)引詞或幾個標(biāo)引詞的組合(即標(biāo)引詞串)相對應(yīng)。例如:

        標(biāo)引款目 F83 金融;人才;培養(yǎng);教學(xué)改革

        標(biāo)引款目中,只有“金融”、“人才”和“培養(yǎng)”三個標(biāo)引詞組合與F83類是直接對應(yīng)的。基于上述假設(shè),按照下面四種模式將每條記錄的分類號與該條記錄的標(biāo)引詞進(jìn)行匹配,生成四個樣本庫:

        (1)樣本庫1(YBK1):分類號與每個標(biāo)引詞一一匹配(181 023條記錄)。YBK1記錄格式見表4-3。

        表4-3 樣本庫1的數(shù)據(jù)樣例

        img68

        (2)樣本庫2(YBK2):分類號與所有兩個相鄰標(biāo)引詞組成的詞串進(jìn)行匹配(129 369條記錄)。YBK2記錄格式見表4-4。

        表4-4 樣本庫2的數(shù)據(jù)樣例

        img69

        (3)樣本庫3(YBK3):分類號與所有三個相鄰標(biāo)引詞組成的詞串進(jìn)行匹配(77 699條記錄)。YBK3記錄格式見表4-5。

        表4-5 樣本庫3的數(shù)據(jù)樣例

        img70

        (4)樣本庫4(YBK4):分類號與所有四個相鄰標(biāo)引詞組成的詞串進(jìn)行匹配(35 084條記錄)。YBK4記錄格式見表4-6。

        表4-6 樣本庫4的數(shù)據(jù)樣例

        img71

        四個樣本庫具有以下特點:

        ●重復(fù)記錄多;

        ●每條記錄的標(biāo)引詞字段須看成一個標(biāo)引詞串;

        ●每個分類號對應(yīng)著多個不同標(biāo)引詞(串);

        ●每個標(biāo)引詞(串)對應(yīng)著多個不同的分類號。

        以樣本數(shù)據(jù)庫為數(shù)據(jù)源建立分類號—主題詞對照數(shù)據(jù)庫,需要解決兩個問題:一是為每個不同的標(biāo)引詞(串)確定一個正確的分類號;二是從四個樣本庫中篩選出與F83學(xué)科各個類目有關(guān)的標(biāo)引詞(串)。由于樣本庫中分類號與標(biāo)引詞(串)是多對多的關(guān)系,要為每個不同標(biāo)引詞(串)確定一個分類號,從統(tǒng)計學(xué)的角度看,可以依據(jù)二者的關(guān)聯(lián)程度進(jìn)行判斷。相關(guān)程度越大,二者同時出現(xiàn)的概率就越高,其正確率也最高。對同一標(biāo)引詞(串)來說,它可能對應(yīng)著多個分類號,但可以通過計算它與各個分類號的相關(guān)程度,選擇相關(guān)程度最大的分類號作為該標(biāo)引詞(串)的正確分類號(假設(shè)前提是每個標(biāo)引詞或標(biāo)引詞串只能歸屬某一個類號)。

        統(tǒng)計學(xué)上有多種方法用以測定兩個事件的關(guān)聯(lián)程度,最常用的有兩種方法:信息對數(shù)量度(IM)和最大似然估計法(LogL)。法國的B.Dialle專家曾在自動翻譯系統(tǒng)中用IM和LogL方法測定文本中兩個相鄰詞匯的相關(guān)程度,并比較了兩種方法的應(yīng)用效果[1]。法國的V.D.Goetz曾用LogL方法刪除LCSH與DDC對照數(shù)據(jù)庫中的錯誤記錄[2][3]

        免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋