精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁 ? 理論教育 ?算法設(shè)計及實驗

        算法設(shè)計及實驗

        時間:2023-02-27 理論教育 版權(quán)反饋
        【摘要】:經(jīng)過以上處理,得到了一個僅含有28 670條詞條的小詞典,經(jīng)人工審核,最終確定其規(guī)模為27 958條。因此,通過該方法不僅可以有效精簡特征抽取用抽詞詞典的規(guī)模,提高系統(tǒng)運行效率,同時對系統(tǒng)分類效果的影響也不大。
        算法設(shè)計及實驗_文本自動標(biāo)引與自動分類研究

        3.4.2 算法設(shè)計及實驗

        根據(jù)以上分析,筆者設(shè)計了以下算法進行詞典約簡:

        輸入:輪排后的原始抽詞詞典

        輸出:基于核心詞的約簡結(jié)果

        步驟如下:

        Step1:對詞典進行自切分成A|B|C格式(其中B為中心詞)

        Step2:依次處理A|B、B|C(AC均不為空者不作處理,保留)

        Step3:復(fù)原輪排結(jié)果至原始詞典

        Step4:查重合并輸出

        以上算法其結(jié)果舉例如下(“^”表示為空):

        A    B    C    MI

        ^   凹印   ^   0.0000000

        ^   凹印   機  ?。?.529 429 1

        ^   凹印   技術(shù) ?。?.439 350 4

        ^   凹印   企業(yè) ?。?.018 401 8

        通過實驗方法,最后設(shè)定的閾值為-2.000 000 0,因此小于該閾值的“機、技術(shù)、企業(yè)”被清空,最后查重,僅保留“凹印”一詞。

        經(jīng)過以上處理,得到了一個僅含有28 670條詞條的小詞典,經(jīng)人工審核,最終確定其規(guī)模為27 958條。

        為了驗證以上經(jīng)過約簡從而導(dǎo)致的詞典條目數(shù)量變化對分類效果的影響,我們構(gòu)造了一個基于向量空間及基于簡單向量距離分類器的分類系統(tǒng),特征權(quán)值計算仍采用TF-IDF法,分別采用本詞典和原始詞典進行切分和分類實驗,基于ChinaInfoBank[15]語料庫來進行測試,結(jié)果如表3-1(測試環(huán)境P4/2.6G/256M)。

        表3-1 不同詞典對分類結(jié)果的影響

        img21

        從表3-1可以看出,在含核心詞的詞典條目達到一定規(guī)模的情況下,其數(shù)量的增加對分類效果的影響已經(jīng)很小,與降維的效果以及時間、空間復(fù)雜度的降低程度相比來說,這一影響已經(jīng)基本可以忽略。因此,通過該方法不僅可以有效精簡特征抽取用抽詞詞典的規(guī)模,提高系統(tǒng)運行效率,同時對系統(tǒng)分類效果的影響也不大。

        免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋