精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁 ? 理論教育 ?信息技術(shù)文本信息的處理

        信息技術(shù)文本信息的處理

        時間:2023-02-27 理論教育 版權(quán)反饋
        【摘要】:文本自動標(biāo)引是對文本根據(jù)其表達(dá)的內(nèi)容或主題,進(jìn)行關(guān)鍵詞或主題詞自動獲取的過程。本書從文本的自動標(biāo)引和自動分類角度出發(fā),調(diào)研文本自動標(biāo)引和自動分類技術(shù)的相關(guān)理論研究,結(jié)合實際應(yīng)用,以中文文本為研究對象,探討文本的自動標(biāo)引和自動分類問題。雖然本書研究的是中文文本的自動標(biāo)引和分類,但其中的關(guān)鍵技術(shù)與方法同樣可以推廣到其他語種的相應(yīng)處理中。
        研究背景_文本自動標(biāo)引與自動分類研究

        1.1 研究背景

        隨著計算機及網(wǎng)絡(luò)的普及,數(shù)字化載體逐漸融入人們的生產(chǎn)、生活中,成為人們獲取信息資源不可或缺的途徑、方法和手段。根據(jù)第23次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告顯示,目前我國上網(wǎng)網(wǎng)民已經(jīng)突破1億,網(wǎng)民用于上網(wǎng)的時間每周平均在14個小時以上[1]。我國網(wǎng)民人數(shù)的增加、上網(wǎng)時間的增長,從一個側(cè)面說明,數(shù)字化載體十分具有吸引力,能夠方便、快捷地為人們提供所需要的信息資源。在過去的20年中,萬維網(wǎng)的迅速發(fā)展使其成為世界上規(guī)模最大的公共數(shù)據(jù)源。萬維網(wǎng)數(shù)據(jù)量巨大且不斷增長、數(shù)據(jù)類型豐富、信息異構(gòu)、信息包含噪音等特點,使得挖掘有用的信息和知識的任務(wù)變得十分有趣,并富有挑戰(zhàn)[2]。

        我們正處于“信息爆炸”的時代,但為什么當(dāng)各類信息像洪水一樣向我們涌來時,我們?nèi)匀蝗狈λ枰男畔⒛??這是因為在信息社會之中,“沒有控制和沒有組織的信息不再是一種資源。它倒反而成為信息工作者的敵人”[3]

        然而,在這些紛繁復(fù)雜的信息資源中,最主要的還是非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本信息資源。人們上網(wǎng)獲取信息資源的要求是快捷方便,而要快捷方便,通常的做法是對文本信息資源進(jìn)行預(yù)先處理,運用某種方式組織和存貯起來。如何對異構(gòu)、動態(tài)的海量信息資源進(jìn)行快速的加工與組織,以智能化、個性化的方式為用戶提供高效的信息服務(wù),是信息組織部門、信息組織研究者等共同面臨的難題。

        一方面,數(shù)字化信息資源數(shù)量高速增長,其中包含著對人們極有潛在價值的知識和信息;另一方面,人們運用網(wǎng)絡(luò)獲取信息資源的數(shù)量也在高速增長,而人們獲得的有效信息資源的比例卻在下降。其原因在于互聯(lián)網(wǎng)的政策——任何人可以發(fā)布任何未經(jīng)加工的信息,這些未經(jīng)加工的信息難以獲取效率,而經(jīng)過加工的信息能夠提高人們的獲取效率。未經(jīng)加工的信息越多,人們的信息資源檢索效率就越低。

        然而,要解決信息資源無限增長和檢索效率低下的矛盾,究其原因是多方面的,非某一種技術(shù)所能解決,存在的困難也是多方面的。但主要的原因還是信息資源的多樣化和海量化,且沒有經(jīng)過規(guī)范的加工處理。在這些雜亂無序的信息海洋中,用戶要迅速準(zhǔn)確地找到自己所需要的信息,困難重重。

        關(guān)于信息資源的加工與組織方法比較多,其中文本的自動標(biāo)引和自動分類是比較關(guān)鍵的技術(shù),并且有廣泛的應(yīng)用。文本自動標(biāo)引(本書是指狹義上的自動標(biāo)引,即文本的關(guān)鍵詞抽取或主題詞獲?。┦菍ξ谋靖鶕?jù)其表達(dá)的內(nèi)容或主題,進(jìn)行關(guān)鍵詞或主題詞自動獲取的過程。分類是人們?yōu)g覽和查找信息的主要手段之一。文本自動分類是根據(jù)某一特定的分類體系,將文本資源分門別類地進(jìn)行自動組織的方法。

        本書從文本的自動標(biāo)引和自動分類角度出發(fā),調(diào)研文本自動標(biāo)引和自動分類技術(shù)的相關(guān)理論研究,結(jié)合實際應(yīng)用,以中文文本為研究對象,探討文本的自動標(biāo)引和自動分類問題。雖然本書研究的是中文文本的自動標(biāo)引和分類,但其中的關(guān)鍵技術(shù)與方法同樣可以推廣到其他語種的相應(yīng)處理中。

        免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋