第二節(jié)統(tǒng)計分組的概念
第二節(jié) 統(tǒng)計整理
當我們通過統(tǒng)計調(diào)查,搜集到大量統(tǒng)計資料以后,如果不加整理,這些資料都是零星的、分散的,只反映事物的表面現(xiàn)象和外部聯(lián)系。因此,必須根據(jù)一定研究目的,對這些數(shù)據(jù)資料加以科學的綜合、加工,使之系統(tǒng)化,變?yōu)槟芊从晨傮w特征的綜合數(shù)字資料。
統(tǒng)計資料整理的主要步驟是對調(diào)查得來的數(shù)據(jù)資料進行審核、分組、匯總并編制統(tǒng)計表。其中統(tǒng)計分組是統(tǒng)計整理的一個重要內(nèi)容,統(tǒng)計分組的方法或分類的方法是否科學,是否能反映現(xiàn)象的客觀過程,是統(tǒng)計分組的中心問題。
一、統(tǒng)計分組的概念
統(tǒng)計活動的全過程是在一定的分組體系下運用統(tǒng)計指標體系進行的,所以,統(tǒng)計分組在統(tǒng)計活動中具有十分重要的地位。
統(tǒng)計分組就是根據(jù)統(tǒng)計研究的需要,將統(tǒng)計總體按照一定的分組標志區(qū)分為若干部分的一種統(tǒng)計方法??傮w的各個組成部分稱為“組”。
根據(jù)統(tǒng)計總體的特征,一方面,組成總體的各單位,在某些標志上具有相同的性質(zhì);另一方面,在其他一些標志上又具有某些差異。通過對有差異的標志分組把總體內(nèi)不同性質(zhì)的單位分開,使性質(zhì)相同的單位歸在一個組內(nèi),這樣有助于從數(shù)量方面揭示現(xiàn)象內(nèi)部的聯(lián)系,從而更深入說明總體的特征和規(guī)律性。例如,我們把社會產(chǎn)品區(qū)分為生產(chǎn)資料和消費資料兩大類,以研究兩大部類的比例關(guān)系和規(guī)律;將具有我國國籍的人口按年齡或性別進行分組以研究我國人口狀況和發(fā)展趨勢等。
統(tǒng)計分組的關(guān)鍵在于選擇分組標志和劃定各組界限。分組標志是統(tǒng)計分組的依據(jù),如果選擇不當就不能獲得正確的結(jié)論,達不到統(tǒng)計研究的目的。而在分組標志的差異范圍內(nèi)各組界限劃分不當,必將混淆各組的性質(zhì)差別,達不到組內(nèi)同質(zhì)、組間差異的分組要求。
二、頻數(shù)分布
將總體按某種標志分組,并將總體中的所有單位按組歸類整理,形成總體中各個單位數(shù)在各組間的分布,稱為頻數(shù)分布。各個組的單位數(shù)叫頻數(shù)(Frequency),各組頻數(shù)與總頻數(shù)之比叫比率,又稱頻率。將各組按大小順序排列起來,并列出各組在該標志上的總體單位數(shù),所形成的數(shù)列稱為頻數(shù)分布數(shù)列,簡稱分布數(shù)列。通過頻數(shù)分布可以反映總體中所有單位在各組間的分布狀態(tài)和特征,研究這種分布特征是統(tǒng)計分析的一項重要內(nèi)容。
根據(jù)分組標志特征的不同,分布數(shù)列可以分為品質(zhì)數(shù)列與變量數(shù)列。
(一)品質(zhì)數(shù)列
按品質(zhì)標志分組形成的分布數(shù)列稱為品質(zhì)數(shù)列。如表2-1所示。
表2-1 我國內(nèi)地人口的性別分布(2000年11月1日0時)
資料來源:第五次全國人口普查公報(第1號)。
一般來說,由于品質(zhì)標志對事物性質(zhì)的差異表現(xiàn)得比較明確,總體中各組界限劃分比較容易,因而品質(zhì)分布數(shù)列一般也較穩(wěn)定,通常均能準確地反映總體的分布特征。但有些按品質(zhì)標志劃分各組界限時會碰到困難,因為存在著兩種性質(zhì)的變異間的過渡形態(tài),使組限不易劃分,如生產(chǎn)按部門分,勞動力按職業(yè)分,產(chǎn)品按種類分。為了保證統(tǒng)計資料在搜集和匯總上的統(tǒng)一,對重要的品質(zhì)標志分組,往往編有標準的分類目錄,以統(tǒng)一全國的分組口徑。例如,《工業(yè)部門分類目錄》、《工業(yè)產(chǎn)品目錄》等。
(二)變量數(shù)列
按數(shù)量標志分組形成的分布數(shù)列稱為變量數(shù)列。如表2-2所示。
表2-2 某街道住戶人口數(shù)分布
對于變量數(shù)列來講,因為事物性質(zhì)的差異表現(xiàn)得不太明確,決定事物性質(zhì)的數(shù)量界限往往因人的主觀意志而定。因此,按同一數(shù)量標志分組時,有出現(xiàn)多種分布數(shù)列的可能。如何分組才能使變量數(shù)列準確地反映總體分布的特征,這是編制變量數(shù)列的核心問題。
變量數(shù)列可分為單項變量數(shù)列與組距變量數(shù)列兩種。
單項變量數(shù)列是按每個變量值分別列組而編制的變量數(shù)列,如表2-2所示。對于離散型變量而且變量值又比較少的情況,一般適宜采用單項變量數(shù)列。
對于連續(xù)型變量(如表2-3中的資料)或者數(shù)值比較多的離散型變量,則適宜采用組距數(shù)列。
表2-3 某車間工人生產(chǎn)定額完成情況 單位:%
續(xù)表
組距變量數(shù)列是用表示一定變動范圍或表示一定距離的兩個變量值代表一個組,由這些組及其所含的單位數(shù)組成的變量數(shù)列,表2-4即為根據(jù)表2-3的資料編制的組距變量數(shù)列。
表2-4 某車間工人生產(chǎn)定額完成情況分布
在組距數(shù)列中,每組的最大值為組的上限(Upper limit),最小值為組的下限(Lower limit),上限和下限之間的距離稱為組距(Class width),上限與下限之間的中點數(shù)值稱為組中值(Class midpoint),即:組距=上限-下限,。
例如,表2-4中第一組上限為90%,下限為80%,組距=90%-80%=10%,。對于組距數(shù)列,需要做以下幾點說明:
1.組距變量數(shù)列通常有等距和不等距兩種。等距數(shù)列即每一組的組距是相等的,上例即是等距數(shù)列。組距不相等的叫不等距數(shù)列。在實際進行分組時采用哪一種數(shù)列,取決于現(xiàn)象的性質(zhì)和研究的目的。
等組距的優(yōu)點是便于以后的計算和分析,因此,編制組距數(shù)列時,應盡量采用等距分組。對于一部分現(xiàn)象由于性質(zhì)差異的變化不均衡,很難用等組距的辦法近似地區(qū)分性質(zhì)不同的組,則需要采用不等距分組。例如,對兒童年齡的分組,必須注意到兒童不同年齡生理變化的特點,分為:1歲以下,1~3歲,3~7歲,7~15歲等組。又比如,鋼鐵工業(yè)中,高爐按有效容積(立方米)的不等距分組:100立方米以下,100~200立方米,200~400立方米,400~800立方米,800~1600立方米,1600立方米以上。
2.離散型變量和連續(xù)型變量組限的表示方法不同。離散型變量可以一一列舉,而且相鄰兩個數(shù)值之間沒有中間數(shù)值,因此,各組的上下限都可以用確定的數(shù)表示,且相鄰兩組的上下限可以不重合。例如,企業(yè)按職工人數(shù)分組可以分為以下各組:50~99人,100~149人,150~199人,200~249人。連續(xù)型變量不可能一一列舉,因此,相鄰組的上限和下限不可能用兩個確定的數(shù)值來表示,在這種情況下,通常是以一個數(shù)值作為相鄰兩組的上限和下限,例如,表2-4某車間工人生產(chǎn)定額完成程度分組中,90%既是第一組的上限又是第二組的下限。在這種分組情況下,為了防止分組發(fā)生混亂,習慣上規(guī)定各組一般均只包括本組下限變量值,而不包括本組上限變量值,即“上組限不在內(nèi)”原則,如上例定額完成程度為90%的工人列入第二組。
3.組距數(shù)列中的各個組可以是開口組,也可以是閉口組。組距的上限、下限都齊全的叫閉口組,如表2-4所示。有上限缺下限,或有下限缺上限的叫開口組,例如,表2-4的第一組若表示為90%以下,則為缺下限開口組;第五組若表示為120%以上,則為缺上限開口組。開口組的組中值一般以鄰近一組組距為準計算,其計算公式為:
(三)頻數(shù)分布圖
為了更直觀地反映變量數(shù)列中總體單位在各組的分布情況,可以根據(jù)頻數(shù)分布表繪制頻數(shù)分布圖。
1.直方圖。直方圖是以橫軸表示各組組限,縱軸表示頻數(shù)或比率,依據(jù)各組組距的寬度與頻數(shù)的高度而繪制的頻數(shù)分布圖。根據(jù)表2-4的資料可繪制直方圖,如圖2-1所示。
圖2-1 某車間工人生產(chǎn)定額完成程度頻數(shù)分布圖
2.曲線圖。如果以各組標志值中點位置作為該組標志的代表值,然后用折線將各組頻數(shù)連接起來,就形成了頻數(shù)分布的折線圖。當變量值非常多,變量數(shù)列的組數(shù)無限增多時,折線圖就會越來越光滑,逐漸接近于一條光滑的曲線,這種曲線即頻數(shù)分布曲線。
各種不同性質(zhì)的客觀現(xiàn)象都有著特殊的頻數(shù)分布曲線,但主要有鐘形、U形和J形三種類型。
鐘形曲線的特點是“兩頭小,中間大”,即靠近中間的變量值分布的頻數(shù)多,靠近兩端的變量值分布的頻數(shù)少。鐘形分布有對稱與非對稱之分,對稱分布以分布頻數(shù)最多的中間變量值為中心,兩側(cè)呈對稱分布,如圖2-2(a)所示。許多客觀現(xiàn)象總體的分布都趨于對稱分布,如零件公差的分布、商品市場價格的分布等。非對稱分布有不同方向的偏度,如圖2-2(b)、(c)所示。對非對稱分布的偏斜度的測定,可參閱本書第三章的有關(guān)內(nèi)容。
圖2-2 對稱與非對稱分布
U形曲線的特點是“兩頭大,中間小”,即靠近中間的變量值分布的頻數(shù)少,靠近兩端的變量值分布的頻數(shù)多。如人口死亡率分布,由于嬰幼兒和老年人死亡率均高,而中青年人死亡率最低,因而按年齡分組的人口死亡率表現(xiàn)為U形分布,如圖2-3所示。
圖2-3 U形分布
J形分布分正J形與反J形兩種類型,如圖2-4(a)、(b)所示。正J形分布是頻數(shù)隨著變量值的增大而增多,如投資額按利潤率大小分布。反J形分布是頻數(shù)隨著變量值的增大而減少,如經(jīng)濟學中需求量按價格高低的分布(即需求曲線)。
圖2-4 J形分布
(四)累計頻數(shù)分布
上述的頻數(shù)分布表僅表示每一組的頻數(shù)為多少,如表2-4所示,生產(chǎn)定額完成程度為90%~100%的工人數(shù)為6人。但如果要知道定額完成程度為100%以下(或以上)的工人數(shù)為多少,占全體的比例是多少,就要計算累計頻數(shù)(Cumulative frequencies)或累計比率(Cumulative ratio)。計算累計頻數(shù)或比率的方法有兩種,一種是向上累計,另一種是向下累計。向上累計頻數(shù)及比率是將各組頻數(shù)和比率由變量值低的組向變量值高的組累計,各累計數(shù)的意義是各組上限以下的累計頻數(shù)或累計比率。向下累計頻數(shù)及比率是將各組頻數(shù)和比率由變量值高的組向變量值低的組累計,各累計數(shù)的意義是各組下限以上的累計頻數(shù)或比率(見表2-5)。
表2-5 工人生產(chǎn)定額完成程度累計頻數(shù)分布表
續(xù)表
對于累計的頻數(shù)除了列表表示以外,還可以用圖表示。圖示累計頻數(shù)形成的曲線稱累計曲線圖。洛倫茨曲線是一種具有特殊作用的累計分布曲線,它可以用來表示一個國家或一個地區(qū)收入分配是否平等的程度。其計算方法是:計算出各組人數(shù)的百分數(shù)及其所得收入的百分數(shù)。若有一組人數(shù)百分數(shù)甚少,而所占收入百分數(shù)甚高,其余各組人數(shù)的百分數(shù)甚大,而占有收入的百分數(shù)甚低,則可知所得分配是不平等的。表2-6是我國1984年職工收入分布表。
表2-6 1984年我國職工收入分布表
從表2-6可看出收入分配的狀況。其中收入最高的戶數(shù)占總?cè)藬?shù)的5%,而收入額則達到9.28%。收入最低的戶數(shù)占總?cè)藬?shù)的2.21%,收入額僅占0.98%。這種狀況,用累計百分數(shù)表示,則表現(xiàn)得更清楚(見表2-7)。
表2-7 職工收入累計分布
為了說明收入分配的不平等狀態(tài),可將上述實際分配狀態(tài)與絕對平等狀態(tài)和絕對不平等狀態(tài)相比較,并用曲線表示出來。所謂絕對平等狀態(tài),是假定居民的收入都完全一樣,如表2-8所示。
表2-8 職工收入絕對平等累計分布 單位:%
所謂分配的絕對不平等狀態(tài),則是假定居民中99%的人收入為零,最后1%的人占有全部收入,如表2-9所示。
表2-9 職工收入絕對不平等累計分布 單位:%
續(xù)表
當然,這兩種情況在任何國家和地區(qū)都是不存在的,實際的分配介于兩者之間。把以上三種情況畫成曲線圖以進行比較,當實際分配曲線與絕對平等線之間差距越小,表明實際的不平等越小,差距越大,表明實際的不平等越大,如圖2-5所示。
圖2-5 居民收入分配的洛倫茨曲線
從圖2-5中可知,不平等面積越大,表示不平等的程度越大,不平等的面積越小,表示不平等的程度越小。
以不平等面積與三角形面積的比值(G)來反映收入分配不平等的指標稱為基尼系數(shù)?;嵯禂?shù)是意大利經(jīng)濟學家基尼(Gini)為分析收入和財富分配的不平等性,在洛倫茨曲線的基礎(chǔ)上于1912年提出。利用基尼系數(shù)判斷收入分配平等性的一般標準為:G<0.2,高度平等;0.2≤G<0.3,相對平等;0.3≤G<0.4,差距相對合理;G≥0.4,差距偏大。
三、莖葉圖
將搜集來的數(shù)據(jù)資料按照分組標志進行分組,再將分組數(shù)據(jù)繪制成直方圖、折線圖或曲線圖來觀察數(shù)據(jù)的數(shù)量規(guī)律性,這種統(tǒng)計整理方法的局限性表現(xiàn)為整理后就失去了原始的數(shù)據(jù)信息。為解決上述問題,20世紀70年代末期出現(xiàn)了探索性數(shù)據(jù)分析的統(tǒng)計新領(lǐng)域,莖葉圖(Stem-and-leaf display)是探索性數(shù)據(jù)分析中比較簡單的一種。圖2-6是根據(jù)表2-3的資料繪制的莖葉圖。
圖2-6 某車間工人生產(chǎn)定額完成情況的莖葉圖
莖葉圖將分組標志視為樹莖,將觀察值視為樹葉,每個樹葉按照分組要求長在應長的樹莖上,各樹莖上的葉子數(shù)是各組的頻數(shù)。在圖2-6中,我們將定額完成程度的十位和百位數(shù)作為樹莖,如第一個樹莖8表示十位數(shù)為8,第三個樹莖10表示十位數(shù)為0、百位數(shù)為1,分屬不同樹莖的觀察值,個位數(shù)從0~9都應長在相應樹莖上。將樹莖確定并畫好后,依次將每個工人生產(chǎn)定額完成程度的個位數(shù)寫到對應的樹莖上,即是一個莖葉圖。
與編制組距數(shù)列再繪制直方圖比較,莖葉圖將分組與繪圖兩步一次完成,并且保留了數(shù)據(jù)的原始信息。在對連續(xù)型數(shù)據(jù)分組時,利用莖葉圖還可以避免重復分組問題,因而不必規(guī)定“上組限不在內(nèi)”原則。
免責聲明:以上內(nèi)容源自網(wǎng)絡,版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。