5.2.1 抽樣調查方案的設計
本設計分經濟、教育、文學、心理四個學科類別,隨意抽取1 800篇中文網頁進行人工自動標引、人工打分、詞頻統(tǒng)計,并進行調查統(tǒng)計數(shù)據(jù)的分析、研究,旨在得出網頁文章內容與網頁題名、文章標題、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段,其他段以及html標記等12個標引源的關系,得出12個標引源的主題表達能力的先后順序,并為之設計適當?shù)臋嘀?,以便為提高文本的自動標引提供一科學合理的位置權重方案。
(1)數(shù)據(jù)來源概述
抽樣數(shù)據(jù)的主要來源見表5-1。
表5-1 主題表達能力的抽樣統(tǒng)計數(shù)據(jù)來源一覽表
注:網頁獲取日期為2001/7/10至2002/5/1。
(2)基本步驟
①利用ROBOT程序或者人工采集訓練用網頁,并以HTML格式保存。
②對采集的網頁進行人工自動標引,以Word文本格式保存。人工自動標引是一種不依據(jù)詞表,由標引員根據(jù)文獻主題內容自主擬詞標引的標引方法。需對文獻進行主題分析,把分析出的主題概念轉換為若干主題詞,標引時也需遵循一定的標引規(guī)則,但無需查看詞表?,F(xiàn)以URL為“http://202.84.17.28/csnews/20010705/89514.htm”的網頁為例進行說明。
URL:http://202.84.17.28/csnews/20010705/89514.htm
標題:麥當勞計劃在日本發(fā)股票
標引:麥當勞股票發(fā)行麥當勞連鎖店漢堡包市場日本
③用Access設計表格,對每個網頁的12個標引源:網頁題名(title項)、文章標題(bt)、第一段首句(ds1)、第一段尾句(dw1)、第二段首句(ds2)、第二段尾句(dw2)、第三段首句(ds3)、第三段尾句(dw3)、首段(sd)、尾段(wd)、其他段(qt)、html標記(html)進行人工打分,并統(tǒng)計每個網頁的自動標引詞數(shù)(cs)、文章字數(shù)(zs)以及段落數(shù)(dls)。其中,其他段主要是指第二段;HTML項主要記錄的是〈/B〉、〈/STRONG〉等超文本標記。具體格式見表5-2。
表5-2 自動標引標引源統(tǒng)計表樣例
注:打分規(guī)則如下:
1分:能很好地反映文章的主題;2分:基本上能反映文章的主題;
3分:只能反映文章的局部主題;4分:只能反映文章的個別主題;5分:不能反映主題。
④用Access設計表格、保存文章標題,第一、二、三段首、尾句,首段,尾段,html文本標記中所含的自動標引詞(包括其同義詞)數(shù),并在網頁中把標引詞標記出來,用Word方式保存。具體格式見表5-3。
表5-3 自動標引詞頻統(tǒng)計樣例
⑤進行詞頻統(tǒng)計以及調查統(tǒng)計數(shù)據(jù)的分析。
全文步驟用流程圖表示如圖5-1所示。
圖5-1 統(tǒng)計工作流程圖
免責聲明:以上內容源自網絡,版權歸原作者所有,如有侵犯您的原創(chuàng)版權請告知,我們將盡快刪除相關內容。