精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁(yè) ? 理論教育 ?關(guān)聯(lián)概念空間生成的兩個(gè)主要階段

        關(guān)聯(lián)概念空間生成的兩個(gè)主要階段

        時(shí)間:2023-02-27 理論教育 版權(quán)反饋
        【摘要】:同現(xiàn)分析階段即利用關(guān)聯(lián)算法計(jì)算正排檔中所有語(yǔ)詞兩兩之間的關(guān)聯(lián)度,最終生成關(guān)聯(lián)概念空間。詞語(yǔ)A和B之間關(guān)聯(lián)度計(jì)算的影響因素主要有兩個(gè):①詞匯A,B同現(xiàn)的頻次。通過(guò)計(jì)算正排檔中各詞匯之間的關(guān)聯(lián)度,得到關(guān)聯(lián)概念空間。為了提高其運(yùn)行效率和質(zhì)量,需對(duì)弱關(guān)聯(lián)進(jìn)行興趣度過(guò)濾,只保留關(guān)聯(lián)度排前50位的詞匯對(duì)應(yīng)關(guān)系,如表5-4所示:表5-4 關(guān)聯(lián)概念空間片段
        關(guān)聯(lián)概念空間生成的兩個(gè)主要階段_自然語(yǔ)言敘詞表自動(dòng)構(gòu)建研究

        5.3.2 關(guān)聯(lián)概念空間生成的兩個(gè)主要階段

        (1)標(biāo)引階段

        為了獲得語(yǔ)詞之間的同現(xiàn)信息,需要首先統(tǒng)計(jì)語(yǔ)詞在文本訓(xùn)練庫(kù)中出現(xiàn)的信息,這就是一個(gè)標(biāo)引的過(guò)程。具體做法是:用以上關(guān)鍵詞詞典作為抽詞詞典,對(duì)文獻(xiàn)庫(kù)中每一篇文獻(xiàn)采用正向最大匹配算法抽取詞匯(詞組),同時(shí)統(tǒng)計(jì)詞頻,生成正排檔。如《法制日?qǐng)?bào):國(guó)家開(kāi)征煙葉稅取代原煙葉特產(chǎn)農(nóng)業(yè)稅》一文:

        img34

        經(jīng)過(guò)關(guān)鍵詞最大正向匹配算法,從中抽取關(guān)鍵詞,按詞頻自大到小構(gòu)成詞串“煙葉稅6,煙葉特產(chǎn)農(nóng)業(yè)稅3,煙葉3,農(nóng)民負(fù)擔(dān)1,納稅人1,征收1,納稅環(huán)節(jié)1,計(jì)稅依據(jù)1,暫行條例1,國(guó)家稅務(wù)總局1”。得到正排檔如表5-3:

        表5-3 正排檔示例

        img35

        (續(xù)表)

        img36

        根據(jù)文本庫(kù)中對(duì)所有文本的標(biāo)引結(jié)果生成正排檔,基本概括了文本訓(xùn)練庫(kù)內(nèi)的信息,以下操作通過(guò)直接掃描正排檔來(lái)完成概念空間的構(gòu)建過(guò)程。

        (2)同現(xiàn)分析階段

        即利用關(guān)聯(lián)算法計(jì)算正排檔中所有語(yǔ)詞兩兩之間的關(guān)聯(lián)度,最終生成關(guān)聯(lián)概念空間。詞語(yǔ)A和B之間關(guān)聯(lián)度計(jì)算的影響因素主要有兩個(gè):①詞匯A,B同現(xiàn)的頻次。同現(xiàn)頻次越高,二者相關(guān)程度越大;反之,相關(guān)程度越低。②同現(xiàn)窗口的大小。同現(xiàn)窗口越小,二者關(guān)系越緊密;反之,關(guān)系越松散。財(cái)稅網(wǎng)站中的文本簡(jiǎn)短意賅,本文以單篇財(cái)稅網(wǎng)頁(yè)作為同現(xiàn)窗口。鑒于此,本文選取DICE測(cè)度進(jìn)行關(guān)聯(lián)度計(jì)算,主要因?yàn)槠渲懈鳒y(cè)度因素設(shè)置較為合理,可以有效克服“零概率事件”和低頻現(xiàn)象。并對(duì)其改造,克服同現(xiàn)窗口大小的影響。以下為本文采用的關(guān)聯(lián)度計(jì)算公式:

        weight(t1,t2

        img37

        公式中,前部分計(jì)算兩詞匯在財(cái)稅文本庫(kù)中的同現(xiàn)頻次與各自總頻次和的比值,后部分計(jì)算同現(xiàn)文獻(xiàn)中最短文長(zhǎng)的對(duì)數(shù)值與所有同現(xiàn)文獻(xiàn)對(duì)數(shù)值的平均值的比值,其中k為兩詞匯同現(xiàn)文獻(xiàn)數(shù)量。公式后半部分的作用是,對(duì)DICE測(cè)度計(jì)算結(jié)果進(jìn)行調(diào)整,使得不同長(zhǎng)度的文獻(xiàn)中計(jì)算的關(guān)聯(lián)度值有所區(qū)別,因?yàn)橄鄬?duì)短小的文獻(xiàn),同現(xiàn)窗口較小,會(huì)得到較強(qiáng)的詞匯關(guān)聯(lián),而長(zhǎng)文獻(xiàn)更……長(zhǎng)文獻(xiàn)更傾向于產(chǎn)生較弱的詞匯關(guān)聯(lián)。

        通過(guò)計(jì)算正排檔中各詞匯之間的關(guān)聯(lián)度,得到關(guān)聯(lián)概念空間。為了提高其運(yùn)行效率和質(zhì)量,需對(duì)弱關(guān)聯(lián)進(jìn)行興趣度過(guò)濾,只保留關(guān)聯(lián)度排前50位的詞匯對(duì)應(yīng)關(guān)系,如表5-4所示:

        表5-4 關(guān)聯(lián)概念空間片段

        img38

        免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋