精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁(yè) ? 理論教育 ?抽樣數(shù)據(jù)的統(tǒng)計(jì)分析

        抽樣數(shù)據(jù)的統(tǒng)計(jì)分析

        時(shí)間:2023-02-27 理論教育 版權(quán)反饋
        【摘要】:5.2.2 抽樣數(shù)據(jù)的統(tǒng)計(jì)分析樣本分類統(tǒng)計(jì)分析首先,就樣本的規(guī)模做了簡(jiǎn)單分類統(tǒng)計(jì),見表5-4、表5-5。可以看出,以300篇經(jīng)濟(jì)類文本作為樣本進(jìn)行分析,得出的標(biāo)引源主題表達(dá)能力排序和分級(jí)與將1 800篇不同類別文本作為樣本得出的結(jié)果很接近。樣本標(biāo)引詞數(shù)統(tǒng)計(jì)分析將自動(dòng)標(biāo)引的結(jié)果進(jìn)一步整理,得到標(biāo)引詞數(shù)分布情況,如表5-9所示。
        抽樣數(shù)據(jù)的統(tǒng)計(jì)分析_文本自動(dòng)標(biāo)引與自動(dòng)分類研究

        5.2.2 抽樣數(shù)據(jù)的統(tǒng)計(jì)分析

        (1)樣本分類統(tǒng)計(jì)分析

        首先,就樣本的規(guī)模做了簡(jiǎn)單分類統(tǒng)計(jì),見表5-4、表5-5。

        表5-4 文章字?jǐn)?shù)分布情況統(tǒng)計(jì)

        img36

        注:字?jǐn)?shù)單位每個(gè)定義為2個(gè)字節(jié)。

        其中,網(wǎng)頁(yè)文章最長(zhǎng)篇幅為12 474字,最短為22字;段落數(shù)最長(zhǎng)為53段,最短為1段。文本以500字以上(占86.82%),10段以下(占69.33%)為主。其中,在經(jīng)濟(jì)類樣本中,文本為500字以上的占85%,接近平均水平,10段以下占78.44%,高于平均水平。

        表5-5 文章段落數(shù)分布情況統(tǒng)計(jì)

        img37

        注:本書所說(shuō)的段落是指正文的自然段,不包括標(biāo)題、文摘等。

        從文章字?jǐn)?shù)分布情況和段落數(shù)分布情況可以看出,無(wú)論從字?jǐn)?shù)或是段數(shù)上來(lái)說(shuō),調(diào)查中網(wǎng)頁(yè)的選取都比較全面,沒有遺漏某類文章,為后續(xù)的分析提供了科學(xué)的依據(jù)。

        (2)總標(biāo)引詞數(shù)統(tǒng)計(jì)

        對(duì)1 800篇樣本的手工自動(dòng)標(biāo)引結(jié)果進(jìn)行初步統(tǒng)計(jì),得到總標(biāo)引詞數(shù)統(tǒng)計(jì)表,如表5-6所示。

        表5-6 自動(dòng)標(biāo)引詞數(shù)統(tǒng)計(jì)

        img38

        由表5-6可以看出,標(biāo)引詞總數(shù)為10 340,平均標(biāo)引詞數(shù)為5.74個(gè),即自動(dòng)標(biāo)引的平均深度接近6個(gè)詞,文本最大標(biāo)引深度值達(dá)14,最小標(biāo)引深度值為2。若以經(jīng)濟(jì)類樣本作為考察對(duì)象,標(biāo)引詞總數(shù)則為4 720個(gè),平均標(biāo)引詞數(shù)為5.24個(gè),標(biāo)引深度略低于總樣本平均標(biāo)引深度,文本標(biāo)引詞數(shù)最大為10,最小為2。

        (3)標(biāo)引源人工打分結(jié)果統(tǒng)計(jì)分析

        對(duì)前面所說(shuō)的12個(gè)標(biāo)引源的人工打分結(jié)果進(jìn)行統(tǒng)計(jì)、整理,得到標(biāo)引源人工打分結(jié)果統(tǒng)計(jì)表,如表5-7所示。

        表5-7 標(biāo)引源人工打分結(jié)果統(tǒng)計(jì)

        img39

        由表5-7得出12個(gè)標(biāo)引源主題表達(dá)能力的先后順序及對(duì)應(yīng)的分值如下:

        bt>html>sd>ds1>title>dw1>qt>wd>ds2>dw2>ds3 >dw3

        1.767 1.959 2.014 2.386 2.458 2.465 2.884 2.898 2.989 3.071 3.081 3.302

        根據(jù)以上結(jié)果,可以將12個(gè)標(biāo)引源按其表達(dá)主題的能力分為三個(gè)等級(jí):

        第一等級(jí):bt、html、sd;

        第二等級(jí):ds1、title、dw1;

        第三等級(jí):qt、wd、ds2、dw2、ds3、dw3。

        在試驗(yàn)中,以經(jīng)濟(jì)類樣本中的300篇文本作為考察對(duì)象,可得相應(yīng)的統(tǒng)計(jì)結(jié)果如表5-8所示。

        表5-8 標(biāo)引源人工打分統(tǒng)計(jì)(300篇經(jīng)濟(jì)類文本)

        img40

        同樣,根據(jù)表5-8,可以將標(biāo)引源按照主題表達(dá)能力排序,結(jié)果如下:

        sd>bt>html>ds1>title>dw1>ds2>dw2>wd>ds3>qt>dw3

        同樣也可以根據(jù)結(jié)果將標(biāo)引源劃分為以下三個(gè)等級(jí):

        第一等級(jí):sd、bt、html;

        第二等級(jí):ds1、title、dw1;

        第三等級(jí):ds2、dw2、wd、ds3、qt、dw3。

        可以看出,以300篇經(jīng)濟(jì)類文本作為樣本進(jìn)行分析,得出的標(biāo)引源主題表達(dá)能力排序和分級(jí)與將1 800篇不同類別文本作為樣本得出的結(jié)果很接近。

        同時(shí),兩者也有一定的差別。如前者的第一等級(jí)中,排序?yàn)閎t、html、sd,而在后者的第一等級(jí)中,排序?yàn)閟d、bt、html;前者的第三等級(jí)中,排序?yàn)閝t、wd、ds2、dw2、ds3、dw3,而在后者的第三等級(jí)中,排序?yàn)閐s2、dw2、wd、ds3、qt、dw3。對(duì)于兩者存在的差異,不做繼續(xù)討論,因?yàn)檫@不影響標(biāo)引源權(quán)重方案的確定。

        ●html頁(yè)面的title項(xiàng)主題表達(dá)能力有限

        一般來(lái)說(shuō)網(wǎng)頁(yè)題名和文章標(biāo)題是一致的,但根據(jù)表5-7的統(tǒng)計(jì),bt>title,文本篇名(bt)為1.767,網(wǎng)頁(yè)title項(xiàng)為2.458。原因是有的網(wǎng)站網(wǎng)頁(yè)題名和文章標(biāo)題完全不符,網(wǎng)頁(yè)題名為網(wǎng)站或?qū)诘拿Q,借此提高網(wǎng)站的知名度。

        ●html標(biāo)記項(xiàng)對(duì)Web文本挖掘有重要意義

        從統(tǒng)計(jì)結(jié)果可以看出,html標(biāo)記項(xiàng)很重要,它的分值為1.956,小于title項(xiàng)的分值。說(shuō)明超文本標(biāo)記對(duì)計(jì)算機(jī)自動(dòng)標(biāo)引是很有意義的,在考慮權(quán)值分配的時(shí)候需要給予足夠的重視,充分加以利用,不應(yīng)篩掉。

        ●每段的首句的主題表達(dá)能力強(qiáng)于該段的尾句

        從ds1>dw1、ds2>dw2、ds3>dw3可以看出,對(duì)于一般的文章來(lái)說(shuō),每段的開頭總是比結(jié)尾重要,說(shuō)明中文文章的中心句一般在段首,設(shè)置權(quán)值時(shí)要予以考慮。

        ●首段相對(duì)尾段和其他段相比,具有較強(qiáng)的主題表達(dá)能力

        從sd>qt>wd可以看出,首段(sd)表達(dá)能力比其他段以及尾段強(qiáng),且sd被劃分到第一等級(jí)中,說(shuō)明了它具有很強(qiáng)的主題表達(dá)能力,這和寫文章習(xí)慣于“開門見山”、“開宗明義”有關(guān)。

        (4)樣本標(biāo)引詞數(shù)統(tǒng)計(jì)分析

        將自動(dòng)標(biāo)引的結(jié)果進(jìn)一步整理,得到標(biāo)引詞數(shù)分布情況(只考慮12個(gè)標(biāo)引源中的10個(gè)標(biāo)引源),如表5-9所示。

        根據(jù)表5-9,若僅以詞頻作為主題表達(dá)能力的影響因素,可得其中10個(gè)標(biāo)引源的表達(dá)能力關(guān)系如下:

        sd>ds1>dw1>wd>bt>ds2>ds3>html>dw2>dw3

        其中經(jīng)濟(jì)類樣本的10個(gè)標(biāo)引源的表達(dá)能力關(guān)系如下:

        sd>wd>ds1>dw1>bt>html>ds2>ds3>dw2>dw3

        由于標(biāo)引詞的個(gè)數(shù)與文章的篇幅有關(guān),所以上表的統(tǒng)計(jì)結(jié)果沒有縱向比較的意義,只需做平行的比較,作為人工打分?jǐn)?shù)據(jù)統(tǒng)計(jì)的必要補(bǔ)充。

        表5-9 樣本標(biāo)引詞數(shù)分布情況表

        img41

        注:詞頻統(tǒng)計(jì)是對(duì)標(biāo)引源內(nèi)所含關(guān)鍵詞進(jìn)行詞數(shù)統(tǒng)計(jì),包括標(biāo)引詞及其同義詞、準(zhǔn)同義詞等。

        從表5-9可以看出:

        ①sd>wd,這印證了上面人工打分?jǐn)?shù)據(jù)統(tǒng)計(jì)的結(jié)果,一般著者都習(xí)慣開篇點(diǎn)題。

        ②從ds1>dw1,ds2>dw2,ds3>dw3可以看出,每段的段首句都比段尾句能反映主題,段首一般是該段的中心句。權(quán)值設(shè)計(jì)時(shí)應(yīng)該注意這一點(diǎn)。

        ③bt、html項(xiàng)的值分別為2.09、1.84,因它們的平均長(zhǎng)度比首段、尾段文字短得多,相對(duì)來(lái)說(shuō),它們平均標(biāo)引數(shù)應(yīng)比實(shí)際統(tǒng)計(jì)數(shù)高得多,這說(shuō)明了這兩項(xiàng)的主題表達(dá)能力很強(qiáng)。

        免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋