精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁(yè) ? 理論教育 ?特征選擇方法概述

        特征選擇方法概述

        時(shí)間:2023-02-27 理論教育 版權(quán)反饋
        【摘要】:4.1 特征選擇方法概述文本訓(xùn)練類經(jīng)分詞處理后,形成了一個(gè)表征文本類的原始特征詞集T={t1,t2,t3,…在T集合中,大部分特征在文本集中出現(xiàn)次數(shù)在2次或2次以下。因此,有必要對(duì)其進(jìn)行降維處理,主要通過(guò)兩種途徑進(jìn)行,一是特征選擇,二是特征抽取。常用的特征抽取方法有特征聚類、關(guān)鍵詞與主題轉(zhuǎn)換、主成分分析和潛在語(yǔ)義標(biāo)引等。本書重點(diǎn)針對(duì)第一種即特征選擇方法進(jìn)行闡述。
        特征選擇方法概述_文本自動(dòng)標(biāo)引與自動(dòng)分類研究

        4.1 特征選擇方法概述

        文本訓(xùn)練類經(jīng)分詞處理后,形成了一個(gè)表征文本類的原始特征詞集T={t1,t2,t3,…,ti|其中i為特征詞集總量}。這一特征集的維數(shù)一般都比較大,最壞情況下可能相當(dāng)于抽詞詞典的規(guī)模。在T集合中,大部分特征在文本集中出現(xiàn)次數(shù)在2次或2次以下。相關(guān)研究表明,特征的頻度與其按頻度降序的排序位置符合齊普夫定律[1],如下式所示:

        img22

        其中T f表示特征頻度,Rank表示其降序位置值。此公式表示特征在頻度降序表中的位置與其頻度的積近似為一個(gè)常數(shù)。

        如果直接采用該原始特征集T應(yīng)用于后續(xù)的分類系統(tǒng),無(wú)論是時(shí)間復(fù)雜度或者空間復(fù)雜度都將是無(wú)法承受的,另外,也無(wú)法界定該特征集中各表征詞的重要性。因此,有必要對(duì)其進(jìn)行降維處理,主要通過(guò)兩種途徑進(jìn)行,一是特征選擇,二是特征抽取。其中特征抽取[2]主要用于解決自然語(yǔ)言中存在的大量多義詞、同義詞現(xiàn)象來(lái)獲取一個(gè)最優(yōu)的特征概念空間,對(duì)文本內(nèi)容進(jìn)行描述。其主要方法是將原始特征空間進(jìn)行變換,重新生成一個(gè)維數(shù)更小、各維之間更獨(dú)立的特征空間。常用的特征抽取方法有特征聚類、關(guān)鍵詞與主題轉(zhuǎn)換、主成分分析和潛在語(yǔ)義標(biāo)引等。從分類系統(tǒng)實(shí)用角度出發(fā),筆者對(duì)以上方法不做采納也不再細(xì)述。本書重點(diǎn)針對(duì)第一種即特征選擇方法進(jìn)行闡述。

        特征選擇就是從特征集T={t1,t2,t3,…,ti|其中i為特征詞集總量}中選擇一個(gè)真子集T={t1,t2,t3,…,ti}′,而s′《s(其中:s為原始特征集的大小,s′為選擇后的特征集大?。_x擇的依據(jù)是特征項(xiàng)對(duì)分類作用的大小,通常用一個(gè)統(tǒng)計(jì)量來(lái)度量。

        在文本分類中,用于特征選擇的統(tǒng)計(jì)量有:特征頻度,文本頻度,特征熵,MI,信息增益,Chi-square,相關(guān)系數(shù),CHI,特征強(qiáng)度等。這些統(tǒng)計(jì)量從不同的角度度量了特征詞對(duì)分類所起的作用。本書重點(diǎn)對(duì)其中的TF-IDF、IG、MI以及CHI等四種方法進(jìn)行闡述。

        免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋