精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁(yè) ? 理論教育 ?概念空間方法

        概念空間方法

        時(shí)間:2023-02-27 理論教育 版權(quán)反饋
        【摘要】:3.1.7 概念空間方法[14]美國(guó)學(xué)者Chen,H.在1995年綜合詞匯同現(xiàn)頻率、詞匯長(zhǎng)度等因素提出了一種不對(duì)稱的詞匯相似度算法,稱為概念空間方法。有效地構(gòu)建概念空間需要領(lǐng)會(huì)六項(xiàng)基本原則:詞匯對(duì)數(shù)增長(zhǎng)原則、完整性原則、詞匯專指性原則、非對(duì)稱關(guān)聯(lián)原則、相關(guān)性反饋原則、詞匯重疊和發(fā)散激活原則。通過(guò)兩種結(jié)果比較得出,召回率分別為28.60%與61.89%,準(zhǔn)確率為77.08%及24.17%。
        概念空間方法_自然語(yǔ)言敘詞表自動(dòng)構(gòu)建研究

        3.1.7 概念空間方法[14]

        img18

        美國(guó)學(xué)者Chen,H.在1995年綜合詞匯同現(xiàn)頻率、詞匯長(zhǎng)度等因素提出了一種不對(duì)稱的詞匯相似度算法,稱為概念空間方法(Concept Space Approach)。概念空間是詞匯和詞匯之間的權(quán)重關(guān)聯(lián)組成的語(yǔ)義網(wǎng)絡(luò),代表了潛在于信息空間(如不同領(lǐng)域知識(shí)庫(kù)中的文獻(xiàn))的概念(詞匯)和它們的關(guān)聯(lián),并能輔助基于概念的跨領(lǐng)域信息檢索。有效地構(gòu)建概念空間需要領(lǐng)會(huì)六項(xiàng)基本原則:詞匯對(duì)數(shù)增長(zhǎng)原則、完整性原則、詞匯專指性原則、非對(duì)稱關(guān)聯(lián)原則、相關(guān)性反饋原則、詞匯重疊和發(fā)散激活原則。運(yùn)用該理論,Chen初步構(gòu)建了生物領(lǐng)域中的英文蠕蟲(chóng)群敘詞表[15],后來(lái),在Illinois數(shù)字圖書(shū)館啟動(dòng)項(xiàng)目(DLI)的語(yǔ)義檢索實(shí)驗(yàn)中也付諸實(shí)踐,構(gòu)建了基于概念的跨領(lǐng)域的英文工程詞表[16],均取得了令人鼓舞的效果,并通過(guò)實(shí)驗(yàn)證實(shí),這種關(guān)聯(lián)度計(jì)算方法較余弦公式能得到更好的關(guān)聯(lián)效果。其中:dij=tfij×log(n/dfj×wj),詞匯j在文獻(xiàn)i中的權(quán)重,由TF-IDF計(jì)算得出。dijk=tfijk×log(n/d fjk×wj),詞匯j和k在文獻(xiàn)i中的權(quán)重。

        各參數(shù)代表的含義如下:tfij表示詞匯j在文獻(xiàn)i中的詞頻;dfj表示詞匯j在整個(gè)文獻(xiàn)集合中出現(xiàn)的文獻(xiàn)數(shù);wj表示詞j的長(zhǎng)度;n表示文獻(xiàn)集合中文獻(xiàn)量;tfijk表示詞匯j和詞匯k在文獻(xiàn)i中的同現(xiàn)頻次,其值等于min(tfij,tfik);dfjk表示詞匯j和詞匯k同現(xiàn)的文獻(xiàn)數(shù)量。

        weightingfactor(k)=log(N/df k)/log(N),是權(quán)重調(diào)整方案,考慮到普通詞問(wèn)題,即在大量文獻(xiàn)中出現(xiàn)的詞匯權(quán)重小,在詞匯關(guān)聯(lián)時(shí)得到較小的關(guān)聯(lián)度。相應(yīng)的,詞匯k到詞匯j的關(guān)聯(lián)計(jì)算公式為:

        img19

         Chen通過(guò)實(shí)驗(yàn)評(píng)估了所生成詞表的性能:選6個(gè)檢索者,每人給定16個(gè)預(yù)選的詞,請(qǐng)每個(gè)檢索者先就每個(gè)詞聯(lián)想出相關(guān)的詞匯,再?gòu)南到y(tǒng)提示的關(guān)聯(lián)詞中判斷哪些是相關(guān)或不相關(guān)。通過(guò)兩種結(jié)果比較得出,召回率分別為28.60%與61.89%,準(zhǔn)確率為77.08%及24.17%。由此得出:人工聯(lián)想準(zhǔn)確度高,召回率低;而機(jī)器產(chǎn)生關(guān)聯(lián)詞較多,準(zhǔn)確度低。但是這種不對(duì)稱的詞匯關(guān)聯(lián)算法涉及計(jì)算量龐大,需要超級(jí)計(jì)算機(jī)作為硬件保障,因此學(xué)者Chi Yuen Ng等提出一種效率較高的改進(jìn)算法[17]。

        免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋