精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

? 首頁(yè) ? 理論教育 ?確定財(cái)稅詞表選詞依據(jù)

確定財(cái)稅詞表選詞依據(jù)

時(shí)間：2023-02-27 理論教育版權(quán)反饋

【摘要】：5．2．2　確定財(cái)稅詞表選詞依據(jù)財(cái)稅詞表中的詞匯分為兩種：內(nèi)核詞匯和外殼詞匯。③通過(guò)泊松分布選詞，泊松分布模型用以模擬離散隨機(jī)分布現(xiàn)象。對(duì)泊松分布模型研究的一個(gè)重要結(jié)論是，不重要的詞具有單值泊松分布，而重要詞匯的分布則明顯偏離泊松分布。具有一定詞頻是取舍該詞的基本判斷依據(jù)，符合文獻(xiàn)保障原則。

確定財(cái)稅詞表選詞依據(jù)_自然語(yǔ)言敘詞表自動(dòng)構(gòu)建研究

5．2．2　確定財(cái)稅詞表選詞依據(jù)

財(cái)稅詞表中的詞匯分為兩種：內(nèi)核詞匯和外殼詞匯。內(nèi)核部分詞匯用以受控標(biāo)引和檢索，同時(shí)起到控制外殼詞匯作用。對(duì)于已經(jīng)收集完畢的財(cái)稅關(guān)鍵詞詞典，從中選取出內(nèi)核詞匯并進(jìn)一步識(shí)別詞間關(guān)系用以構(gòu)建關(guān)系緊密的內(nèi)核詞表，實(shí)現(xiàn)以上功能。自動(dòng)構(gòu)建敘詞表，目前有三種選詞方法^［5］：

①通過(guò)詞頻選詞，把詞匯表中的詞按詞頻分成三類(lèi)：高頻詞、中頻詞和低頻詞。Salton和McGill經(jīng)過(guò)討論研究認(rèn)為，中頻詞是優(yōu)良的標(biāo)引和檢索詞匯，可以收錄到詞表中。

②通過(guò)區(qū)分值（Discrimination Value，DV）選詞，區(qū)分值測(cè)量一個(gè)詞匯區(qū)分文獻(xiàn)集合中的文獻(xiàn)的能力。詞匯的區(qū)分值越高，它作為標(biāo)引用詞的價(jià)值就越高。其中區(qū)分值等于去掉詞匯k后計(jì)算的平均文獻(xiàn)相似度減去帶有詞匯k的平均文獻(xiàn)相似度的差。即DV（k）＝（Average Similarity without k）—（Average Similarity with k）。區(qū)分能力強(qiáng)的詞匯，由于它的存在明顯降低平均文獻(xiàn)相似度，其DV值為正值。相反，區(qū)分能力差的中性詞匯，對(duì)平均相似度幾乎無(wú)影響。

③通過(guò)泊松分布選詞，泊松分布模型用以模擬離散隨機(jī)分布現(xiàn)象。對(duì)泊松分布模型研究的一個(gè)重要結(jié)論是，不重要的詞具有單值泊松分布，而重要詞匯的分布則明顯偏離泊松分布。后來(lái)這個(gè)結(jié)論作為詞表選詞的依據(jù)，用以識(shí)別領(lǐng)域內(nèi)的重要詞匯。

其中后兩種選詞方法需要經(jīng)過(guò)大量統(tǒng)計(jì)實(shí)現(xiàn)，而且尚處于實(shí)驗(yàn)階段，難以普及。根據(jù)實(shí)際需要，本文內(nèi)核部分詞匯收詞時(shí)需要綜合考慮多種因素，主要以詞頻控制為依據(jù)，兼顧詞長(zhǎng)、詞義、詞類(lèi)等多種因素，并經(jīng)過(guò)人工核定收詞。選詞時(shí)遵循以下控制原則：

①詞長(zhǎng)控制。選定的主題詞應(yīng)詞形簡(jiǎn)練、概念明確。網(wǎng)絡(luò)環(huán)境中詞表容量不再成為問(wèn)題，收詞以詞義表達(dá)明確為適中，以前需組配表達(dá)的概念，可適當(dāng)收錄，以提高詞表專指度。

②詞頻控制。具有一定詞頻是取舍該詞的基本判斷依據(jù)，符合文獻(xiàn)保障原則。內(nèi)核表中詞匯詞頻應(yīng)大于45。對(duì)于詞頻較低的新財(cái)稅概念，考慮到今后的發(fā)展，部分重要詞匯收入內(nèi)核表，其他收入外殼表中。對(duì)詞頻的統(tǒng)計(jì)是在關(guān)聯(lián)概念空間生成過(guò)程中標(biāo)引階段實(shí)現(xiàn)的，在正排檔的基礎(chǔ)上統(tǒng)計(jì)詞匯在訓(xùn)練庫(kù)中的總詞頻，并按詞頻從大到小排列，得到總詞頻表。

③詞類(lèi)控制。選定的詞以名詞和名詞詞組為主，適當(dāng)收錄一些必要的動(dòng)詞。

④詞義控制。盡量收錄同一概念的不同表達(dá)詞匯。

根據(jù)詞頻統(tǒng)計(jì)結(jié)合人工判定的方法共選取內(nèi)核主題詞1　272個(gè)，關(guān)鍵詞詞典中的其余詞匯歸入到外殼關(guān)鍵詞部分。

免責(zé)聲明：以上內(nèi)容源自網(wǎng)絡(luò)，版權(quán)歸原作者所有，如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知，我們將盡快刪除相關(guān)內(nèi)容。

<dfn id="ouxss"></dfn>