精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁 ? 理論教育 ?中文敘詞表自動構(gòu)建相關(guān)研究

        中文敘詞表自動構(gòu)建相關(guān)研究

        時間:2023-02-27 理論教育 版權(quán)反饋
        【摘要】:3.2.3 中文敘詞表自動構(gòu)建相關(guān)研究國內(nèi)對漢語敘詞表自動構(gòu)建相關(guān)研究剛剛起步,雖然很少見到詞表自動構(gòu)建方面的研究和論述,但不乏相關(guān)技術(shù)研究和探索,主要集中于根據(jù)漢字構(gòu)詞字面相似性特點(diǎn)聚類詞匯以及詞間關(guān)系識別方面。在等級關(guān)系識別方面,周榮蓮在調(diào)查多部漢語敘詞表的基礎(chǔ)上,分析了漢語敘詞表的等級義場、范疇義場和相關(guān)義場構(gòu)成特點(diǎn),并提出了漢語敘詞表語義場自動構(gòu)建的思路。
        中文敘詞表自動構(gòu)建相關(guān)研究_自然語言敘詞表自動構(gòu)建研究

        3.2.3 中文敘詞表自動構(gòu)建相關(guān)研究

        國內(nèi)對漢語敘詞表自動構(gòu)建相關(guān)研究剛剛起步,雖然很少見到詞表自動構(gòu)建方面的研究和論述,但不乏相關(guān)技術(shù)研究和探索,主要集中于根據(jù)漢字構(gòu)詞字面相似性特點(diǎn)聚類詞匯以及詞間關(guān)系識別方面。

        在等級關(guān)系識別方面,周榮蓮在調(diào)查多部漢語敘詞表的基礎(chǔ)上,分析了漢語敘詞表的等級義場、范疇義場和相關(guān)義場構(gòu)成特點(diǎn),并提出了漢語敘詞表語義場自動構(gòu)建的思路。經(jīng)過統(tǒng)計,她發(fā)現(xiàn)詞表中的敘詞大多為偏正式結(jié)構(gòu)敘詞,《機(jī)械工程敘詞表》中的比例能達(dá)到80%;不同詞表中族內(nèi)詞和族首詞詞根完全相同的族比例也很高,所以漢語構(gòu)詞法與敘詞表等級義場的構(gòu)成密切聯(lián)系[21]。張琪玉教授也曾提出,根據(jù)漢語字面相似性的特點(diǎn),可以聚類相關(guān)詞匯,輔助構(gòu)造詞族表和分面類表。但是字面相似聚類法不能達(dá)到概念聚類要求,一些具有等級關(guān)系的詞匯并不具備字面相似的特點(diǎn),所以只能作為一種輔助方法[22]。

        在同義關(guān)系識別方面,南京農(nóng)業(yè)大學(xué)信息管理系集中研究了相關(guān)技術(shù)和方法。朱毅華在詞素詞典基礎(chǔ)上,把詞匯以義原的形式表示,通過義原之間的比較實(shí)現(xiàn)詞匯的相似度計算,從而實(shí)現(xiàn)同義詞的識別[23]。章成志則以《同義詞詞林》語義體系為參照,把詞匯映射到該語義體系,通過計算語義路徑距離來計算詞匯之間的相似度[24]。二者均通過設(shè)置語義參照系統(tǒng)改進(jìn)了純字面相似性識別同義詞的缺點(diǎn),試圖從語義上識別同義詞。但是這種方法需要現(xiàn)成的語義參照系統(tǒng),而現(xiàn)有語義參照系統(tǒng)如《同義詞詞林》、Word Net、How Net等收錄的概念有限,多為通用概念,對語義的揭示并不完整,其質(zhì)量成為這種同義詞識別方法的瓶頸。而編制一套精良的語義參照系統(tǒng)需要大量時間和精力,并不現(xiàn)實(shí)。陸勇在其碩士畢業(yè)論文中,采用模式匹配方法和PageRank方法實(shí)現(xiàn)了漢語同義詞識別[25],該方法簡單易行,通過實(shí)驗證明具有一定的實(shí)用價值。仲云云則綜合運(yùn)用以上方法自動構(gòu)建了一部共青團(tuán)電子政務(wù)主題詞表[26]。

        另外,國內(nèi)學(xué)者王軍探討了如何對現(xiàn)有詞表進(jìn)行自動更新和維護(hù),以解決目前詞表更新速度慢、維護(hù)費(fèi)時費(fèi)力的問題。他采用基于統(tǒng)計的方法,以文獻(xiàn)書目數(shù)據(jù)為語料,從文獻(xiàn)標(biāo)題中抽取關(guān)鍵詞,通過計算標(biāo)題關(guān)鍵詞對應(yīng)的文獻(xiàn)標(biāo)引詞集合的核心概念確定其所對應(yīng)的敘詞,并把該關(guān)鍵詞作為該敘詞的下位詞添加到詞表中,從而實(shí)現(xiàn)標(biāo)題關(guān)鍵詞在現(xiàn)有手工編制詞表中的定位,完成詞表的自動豐富,并通過試驗證明這一方法的可行性[27]。臺灣輔仁大學(xué)教授Tseng,Y.H.在2002年發(fā)表論文,首次討論和實(shí)踐了用于中文文獻(xiàn)檢索的敘詞表自動生成方法[10]。他首先采用中文詞切分和未登錄詞識別算法從全文庫中采集自然語言詞匯,然后通過改進(jìn)的Dice關(guān)聯(lián)度算法計算各個詞匯之間的關(guān)聯(lián)度:

        img22

        其中,Si表示文獻(xiàn)i中包含的句子(或段落)數(shù)目,S(Tij)表示文獻(xiàn)i中詞匯Tj出現(xiàn)的句子數(shù)目。ln(1.72+Si)用于消減長文獻(xiàn)中的詞匯權(quán)重,因為相對短文獻(xiàn),長文獻(xiàn)中的詞匯關(guān)聯(lián)度更弱些。把由此生成的詞表嵌入到信息檢索系統(tǒng)中,當(dāng)用戶輸入檢索詞時,系統(tǒng)會根據(jù)詞表查詢到與輸入詞最相關(guān)的若干詞匯并返回給用戶,用戶只需從中選擇適合表達(dá)檢索需求的詞匯進(jìn)行檢索即可,這樣在很大程度上減輕了用戶的智力負(fù)擔(dān),使得檢索更為成功[14]。

        免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋