精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁 ? 理論教育 ?文本分類什么算法好

        文本分類什么算法好

        時(shí)間:2023-02-27 理論教育 版權(quán)反饋
        【摘要】:2.2.2 國外研究現(xiàn)狀國外的文本自動(dòng)分類研究大體有三個(gè)發(fā)展階段[60]:第一階段:主要進(jìn)行文本自動(dòng)分類可行性研究。20世紀(jì)90年代后期,越來越多的學(xué)者開始致力于基于機(jī)器學(xué)習(xí)的文本自動(dòng)分類方面的研究[64—68]。國外較有代表性的自動(dòng)分類研究參見表2-3。
        國外研究現(xiàn)狀_文本自動(dòng)標(biāo)引與自動(dòng)分類研究

        2.2.2 國外研究現(xiàn)狀

        國外的文本自動(dòng)分類研究大體有三個(gè)發(fā)展階段[60]

        第一階段(1958—1964年):主要進(jìn)行文本自動(dòng)分類可行性研究。

        第二階段(1965—1974年):進(jìn)行文本自動(dòng)分類的實(shí)驗(yàn)研究。

        第三階段(1975年至今):文本自動(dòng)分類計(jì)數(shù)逐漸進(jìn)入實(shí)用化階段,并在電子郵件分類、信息過濾等方面有廣泛應(yīng)用。

        國外自動(dòng)分類研究始于20世紀(jì)50年代末,IBM公司的Luhn在這一領(lǐng)域進(jìn)行了開創(chuàng)性的研究,率先提出了詞頻統(tǒng)計(jì)的分類思路,根據(jù)詞匯在文獻(xiàn)不同位置的出現(xiàn)頻率進(jìn)行文獻(xiàn)標(biāo)引類目的選擇[61]。1960年Maron在Journal of ACM上發(fā)表了有關(guān)自動(dòng)分類的一篇論文,其后許多學(xué)者在這一領(lǐng)域進(jìn)行了卓有成效的研究[62]。20世紀(jì)90年代初期,曾有學(xué)者研究過采用知識(shí)工程方法進(jìn)行自動(dòng)分類,主要采用手工編制規(guī)則進(jìn)行專家推理系統(tǒng)的開發(fā),如卡耐基公司開發(fā)的CONSTRUE系統(tǒng)曾在路透社文獻(xiàn)上達(dá)到90%的正確率[63]。但這種方法局限性較大,推廣使用有較大的困難。同一時(shí)期,基于機(jī)器學(xué)習(xí)的方法在計(jì)算機(jī)模式識(shí)別領(lǐng)域獲得了較大進(jìn)展,并逐漸引入到了信息組織領(lǐng)域。20世紀(jì)90年代后期,越來越多的學(xué)者開始致力于基于機(jī)器學(xué)習(xí)的文本自動(dòng)分類方面的研究[64—68]

        在向量空間模型方面,一種方法是計(jì)算文檔與代表某一文檔類別的中心向量之間的相似度,如Rocchio公式。另一種方法是不需要建立描述文檔類別的中心向量,僅依賴于測(cè)試文檔與訓(xùn)練文檔的相似度,如KNN算法[69]。

        概率模型中典型的算法是樸素貝葉斯算法[70],以及對(duì)樸素貝葉斯算法的改進(jìn),如增強(qiáng)型樸素貝葉斯算法、潛在語義索引結(jié)合的貝葉斯方法、貝葉斯層次分類等。

        線性模型有線性最小二乘擬合方法(LLSF)和支持向量機(jī)(SVM)。前者是利用相關(guān)性信息,在自由文本與其代表文本之間達(dá)到一種索引語言上的語義映射。

        非線性模型[71]可以分為層次模型和網(wǎng)絡(luò)模型。網(wǎng)絡(luò)模型的代表是神經(jīng)網(wǎng)絡(luò)(Neural Network)[72]。神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,輸入單元代表詞條,輸出單元表示文本的歸屬值,單元之間的連接都有相應(yīng)的權(quán)值。訓(xùn)練階段,通過某種算法調(diào)查權(quán)值,使得測(cè)試文本能夠根據(jù)調(diào)整后的權(quán)值正確學(xué)習(xí)。

        語義網(wǎng)絡(luò)模型是為了表達(dá)上下文語義關(guān)系,對(duì)人的分類過程的一種模擬。一些研究人員對(duì)此做了研究,如智能Agent文本學(xué)習(xí)模型、上下文敏感算法、專家網(wǎng)絡(luò)、基于記憶的推理策略、EM算法、SOM算法[73—74]等,但制約因素較多,困難較大。

        國外較有代表性的自動(dòng)分類研究(包括相關(guān)系統(tǒng))參見表2-3。

        表2-3 國外較有代表性的自動(dòng)分類研究(包括相關(guān)系統(tǒng))

        img12

        (續(xù)表)

        img13

        免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋