精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁(yè) ? 理論教育 ?基于的方法

        基于的方法

        時(shí)間:2023-02-27 理論教育 版權(quán)反饋
        【摘要】:為了測(cè)試最后生成的樣本庫(kù)中分類號(hào)與標(biāo)引詞的對(duì)應(yīng)準(zhǔn)確率,本實(shí)驗(yàn)共抽取162條記錄進(jìn)行統(tǒng)計(jì)分析。實(shí)驗(yàn)結(jié)果表明,分類號(hào)與標(biāo)引詞的對(duì)應(yīng)正確率可達(dá)72.3%。從上面的實(shí)驗(yàn)可以看出,LogL方法的實(shí)驗(yàn)效果較為理想。采用LogL方法,可以避免高LogL值較小的信息噪聲。
        基于的方法_情報(bào)檢索語(yǔ)言的兼容轉(zhuǎn)換

        4.4.1 基于LogL的方法

        下面以YBK1為例,具體介紹IM和LogL用于生成分類號(hào)—主題詞對(duì)照記錄的方法。具體操作步驟如下:

        (1)將樣本庫(kù)自動(dòng)去掉重復(fù)記錄,并進(jìn)行統(tǒng)計(jì)(見(jiàn)表4-9)。

        表4-9 YBK1的統(tǒng)計(jì)結(jié)果

        img95

        (2)由程序生成每條記錄的LogL值。計(jì)算結(jié)果見(jiàn)表4-10。

        表4-10 YBK1的LogL值

        img96

        續(xù)表 4-10

        img97

        (3)根據(jù)IM值的大小,確定每個(gè)標(biāo)引詞與不同分類號(hào)的關(guān)聯(lián)程度,選取IM值絕對(duì)值最大者為該標(biāo)引詞的最佳分類號(hào)。例如,標(biāo)引詞“國(guó)際資金”的分類號(hào)為“F831.7”;“國(guó)際資本”的分類號(hào)為“F831.6”,“國(guó)際資金”的分類號(hào)為“F831.7”。

        (4)經(jīng)過(guò)上述操作,已篩選掉樣本庫(kù)大部分錯(cuò)誤記錄。YBK1是單個(gè)標(biāo)引詞與分類號(hào)的對(duì)照數(shù)據(jù)庫(kù),其平均出現(xiàn)頻次較高,可根據(jù)需要將樣本庫(kù)中詞(串)頻次小于平均頻次的記錄篩選掉。本文所有樣本庫(kù)的平均頻次約等于3,所以將樣本庫(kù)中標(biāo)引詞頻次小于3的記錄刪除。另外,采用上述四種模式生成樣本庫(kù)中,很多標(biāo)引詞屬于通用概念,如“觀點(diǎn)”、“分析”、時(shí)間和地點(diǎn)等詞匯,可以建立通用概念表,并與樣本庫(kù)匹配。如果某條記錄對(duì)應(yīng)的所有標(biāo)引詞均為通用概念,則將該條記錄刪除。為了測(cè)試最后生成的樣本庫(kù)中分類號(hào)與標(biāo)引詞的對(duì)應(yīng)準(zhǔn)確率,本實(shí)驗(yàn)共抽取162條記錄進(jìn)行統(tǒng)計(jì)分析。實(shí)驗(yàn)結(jié)果表明,分類號(hào)與標(biāo)引詞的對(duì)應(yīng)正確率可達(dá)72.3%。

        (5)從第3步起,重新計(jì)算每條記錄的LogL值。根據(jù)LogL值的大小,確定每個(gè)標(biāo)引詞與不同分類號(hào)的關(guān)聯(lián)程度,選取LogL值最大者為該標(biāo)引詞的最佳分類號(hào)。如“國(guó)際資本”的分類號(hào)確定為F831.6,“國(guó)際資金”的分為號(hào)為F831.7。再用程序?qū)?biāo)引詞(串)頻次小于3的記錄和通用概念刪除,并抽取203個(gè)記錄進(jìn)行抽樣統(tǒng)計(jì)分析,其中分類號(hào)與標(biāo)引詞對(duì)應(yīng)正確率達(dá)80.3%。

        從上面的實(shí)驗(yàn)可以看出,LogL方法的實(shí)驗(yàn)效果較為理想。主要原因有兩個(gè):一是樣本量較小,LogL方法比較適合小樣本的統(tǒng)計(jì)分析;二是分類號(hào)和主題詞的共現(xiàn)頻次較低,50%左右的記錄共現(xiàn)頻次小于3。采用LogL方法,可以避免高LogL值較小的信息噪聲。因此,我們采用LogL方法,為每個(gè)樣本庫(kù)中的各個(gè)標(biāo)引詞(串)均確定一個(gè)分類號(hào),并將標(biāo)引詞(串)頻次小于3的記錄刪除,四個(gè)樣本庫(kù)中分類號(hào)與標(biāo)引詞(串)對(duì)照結(jié)果的正確率見(jiàn)表4-11。

        表4-11 樣本庫(kù)分類號(hào)與標(biāo)引詞(串)對(duì)照結(jié)果

        img98

        在實(shí)驗(yàn)過(guò)程中還發(fā)現(xiàn),分類號(hào)與標(biāo)引詞相符率隨標(biāo)引詞串中標(biāo)引詞個(gè)數(shù)的增加而逐步遞增。主要原因:一是標(biāo)引詞串中標(biāo)引詞個(gè)數(shù)越多,越能準(zhǔn)確地表達(dá)文獻(xiàn)主題,與分類號(hào)的相關(guān)程度較高;二是標(biāo)引詞串所包含的標(biāo)引詞越多,出現(xiàn)頻次越低。

        免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋