怎樣判斷線性回歸方程的準(zhǔn)確度
第二節(jié) 一元線性回歸分析
一、回歸分析的特點(diǎn)
回歸分析是應(yīng)用統(tǒng)計(jì)方法尋找一數(shù)學(xué)方程,建立自變量與因變量之間的關(guān)系,并據(jù)以利用自變量的給定值來(lái)推算或估計(jì)因變量的值。對(duì)于回歸分析來(lái)說(shuō),需要確定哪個(gè)是自變量,哪個(gè)是因變量。如人的身高與體重的關(guān)系,以身高為自變量,則以體重為因變量;反之若以體重為自變量,則以身高為因變量。但是有些現(xiàn)象的兩個(gè)變量之間不能互換。例如,爐膛溫度和出鐵量,只能以爐膛溫度為自變量,出鐵量為因變量,分析爐膛溫度對(duì)出鐵量的影響,而反過(guò)來(lái)分析出鐵量對(duì)爐膛溫度的影響則沒(méi)有意義。在回歸分析中,要求因變量是隨機(jī)變量,自變量是非隨機(jī)變量,是給定的數(shù)值。
回歸分析可分為線性回歸(Linear regression)與非線性回歸(Currilinear regression),對(duì)線性回歸與非線性回歸的區(qū)分有兩種理解,一是按回歸變量本身是否線性,即是否一次式來(lái)劃分,例如,y=β0+β1x1+β2x2+β3x3+ε為三元線性回歸方程,而y=β0+β1x+β2x2+β3x3+ε為一元三次非線性回歸方程。二是按回歸變量的參數(shù)即回歸系數(shù)(Regression coefficient)是否線性來(lái)劃分,例如,上例兩式都是線性方程,因?yàn)樗鼈兊幕貧w系數(shù)β1、β2、β3都是線性的(一次式),而是非線性回歸,因y不是兩參數(shù)β0、β1的線性函數(shù),β0與β1是用乘法和指數(shù)方法連在一起的。在應(yīng)用研究中,常見(jiàn)到的是按變量是否一次性來(lái)劃分線性與非線性回歸方程,因此我們沿用這種觀點(diǎn)。
在線性回歸分析中,對(duì)一個(gè)因變量與一個(gè)自變量的回歸稱(chēng)一元線性回歸(Linear regression),而一個(gè)變量與多個(gè)自變量的回歸稱(chēng)多元線性回歸(Multiple linear regression)。我們首先討論一元線性回歸。
二、一元線性回歸方程
如果隨機(jī)變量y隨自變量X的變化而變化,且呈簡(jiǎn)單線性關(guān)系,則y依x變化的規(guī)律可用一元線性回歸方程表示。由于隨機(jī)因素的干擾,y與x線性關(guān)系中包含隨機(jī)誤差項(xiàng)ε,即有:y=β0+β1x+ε。
例7-1:鋼鐵工業(yè)固定資產(chǎn)投資總額與鋼產(chǎn)量之間有較密切的關(guān)系?,F(xiàn)將某鋼鐵公司1993~2002年的有關(guān)資料列于表7-1。
表7-1 某鋼鐵公司固定資產(chǎn)投資總額及鋼產(chǎn)量統(tǒng)計(jì)表
圖7-1 1993~2002年某鋼鐵公司固定資產(chǎn)投資總額與鋼產(chǎn)量散點(diǎn)圖與回歸線
計(jì)算可有不同的方法,統(tǒng)計(jì)中使用最多的是最小平方法,或稱(chēng)普通最小二乘估計(jì)(Ordinary Lease Square Estimation,簡(jiǎn)記為OLSE),就是通過(guò)要求各散點(diǎn)到回歸線的距離平方和最小來(lái)求得回歸線,這時(shí)所求的回歸線是最適線。即
將回歸方程 代入Q有:
求Q對(duì)的偏導(dǎo)數(shù)并令其為0,即
這說(shuō)明回歸線通過(guò)點(diǎn),這是我們做回歸直線的圖形時(shí)應(yīng)當(dāng)注意的。
若將式的子項(xiàng)、母項(xiàng)分別除以n,則:
式子項(xiàng):
式母項(xiàng):
故
根據(jù)例7-1資料,計(jì)算回歸系數(shù)估計(jì)值的計(jì)算步驟可列表進(jìn)行,其計(jì)算步驟如下(見(jiàn)表7-2):
表7-2 回歸系數(shù)估計(jì)值計(jì)算表
由表7-2可知:
∑x=239762 ∑y=725.32
∑x2=8095238086 ∑y2=54903.26 ∑xy=19484694.37
則
故:
所求回歸方程為:
根據(jù)這個(gè)方程式,把10年的固定資產(chǎn)投資總額的實(shí)際值(x)逐項(xiàng)代入,就可算出對(duì)應(yīng)的鋼產(chǎn)量估計(jì)值(見(jiàn)表7-2末欄),并可在散點(diǎn)圖上畫(huà)出回歸直線(見(jiàn)圖7-1),這條直線的斜率為0.000892,表示某鋼鐵公司的鋼鐵工業(yè)固定資產(chǎn)投資總額每增加1萬(wàn)元,鋼產(chǎn)量平均增加8.92噸。
三、估計(jì)標(biāo)準(zhǔn)誤差
圖7-2 數(shù)據(jù)點(diǎn)的分散程度與回歸直線代表性的對(duì)照
估計(jì)標(biāo)準(zhǔn)誤差就是用來(lái)反映與y之間估計(jì)誤差大小,說(shuō)明估計(jì)值準(zhǔn)確程度的統(tǒng)計(jì)指標(biāo),記為Sy,意思是各觀察值與估計(jì)值估計(jì)誤差的平均值。
式中:n-2表示自由度,因?yàn)閚個(gè)數(shù)據(jù)點(diǎn)在求得回歸系數(shù)后,受兩個(gè)正規(guī)方程的限制,喪失了兩個(gè)自由度,因此用n-2。
為了進(jìn)一步說(shuō)明估計(jì)標(biāo)準(zhǔn)誤差,下面對(duì)隨機(jī)變量y的總變差進(jìn)行分析。
圖7-3 總變差分解圖
所以總變差:
上式中:
總變差、回歸變差、剩余變差的關(guān)系式可寫(xiě)為:
回歸變差與剩余變差的計(jì)算:
可見(jiàn),有了回歸系數(shù),回歸變差就可以通過(guò)上式求得。至于剩余變差可按下式求得:
則
根據(jù)例7-1的資料代入上式得:
四、回歸方程的顯著性檢驗(yàn)(Significance tests)
估計(jì)標(biāo)準(zhǔn)誤差的大小可以反映回歸直線的精確度,即x與y之間的線性相關(guān)程度。但判定估計(jì)標(biāo)準(zhǔn)誤差的大小要有一個(gè)基準(zhǔn),即當(dāng)估計(jì)標(biāo)準(zhǔn)誤差為多少時(shí)我們就可以認(rèn)為回歸方程的線性關(guān)系顯著,回歸直線具有代表性。數(shù)理統(tǒng)計(jì)學(xué)中選取統(tǒng)計(jì)量即U與Q的比例大小來(lái)體現(xiàn)x與y的線性相關(guān)關(guān)系的相對(duì)大小。根據(jù)F值的大小來(lái)判定回歸直線的斜率β1是否等于0,即假設(shè)H0:β1=0,如果否定了H0,也即判定x與y間有線性相關(guān)關(guān)系。那么在什么情況下否定H0呢?數(shù)理統(tǒng)計(jì)中可以證明,在假設(shè)H0成立時(shí),統(tǒng)計(jì)量F服從自由度為1,n-2的F分布,因此對(duì)于給定的檢驗(yàn)標(biāo)準(zhǔn)α(即顯著性水平),查自由度為1,n-2的F分布分位數(shù)表,得臨界值Fα(1,n-2),將其與算得的F值進(jìn)行比較,如果F>Fα(1,n-2)則否定假設(shè)“H0:β1=0”,即認(rèn)為x,y間具有顯著的線性相關(guān)關(guān)系,否則假設(shè)H0是相容的,即沒(méi)有理由認(rèn)為x,y間存在顯著的線性相關(guān)關(guān)系。
例7-2:以例7-1關(guān)于鋼鐵工業(yè)固定資產(chǎn)投資總額與鋼產(chǎn)量為例,進(jìn)一步檢驗(yàn)這兩個(gè)變量在顯著性水平α=0.05時(shí)線性相關(guān)關(guān)系是否顯著。
已知:
Lxx=2346656422
Lyy=2297.25
Lxy=2094756.51
n-2=10-2=8
則:
Q=Lyy-U=2297.25-1868.52=428.73
查附錄二表5bF分布表,F(xiàn)0.05(1,8)=5.32
由于34.87>5.32,所以否定假設(shè)H0:β1=0,即認(rèn)為鋼鐵工業(yè)固定資產(chǎn)投資總額與鋼產(chǎn)量之間存在著顯著的線性相關(guān)關(guān)系。
五、利用回歸方程進(jìn)行預(yù)測(cè)與控制
如果回歸方程顯著性高,則可利用它對(duì)因變量y做預(yù)測(cè)和控制。
預(yù)測(cè)就是根據(jù)自變量x的某一已知值x0,估計(jì)因變量y的相應(yīng)值y0的可能范圍。
當(dāng)x0取值在附近,n又比較大時(shí),y0在1-α置信水平下的預(yù)測(cè)區(qū)間為:
實(shí)際應(yīng)用時(shí),常常采用這一區(qū)間作為因變量y相對(duì)應(yīng)于自變量x0的回歸預(yù)測(cè)區(qū)間。
例7-3:根據(jù)例7-1建立的回歸方程,取固定資產(chǎn)投資額x0=16000萬(wàn)元,求在置信水平為95%時(shí)鋼產(chǎn)量的預(yù)測(cè)區(qū)間。
解:根據(jù)例7-1計(jì)算有:
由置信水平1-α=95%,自由度=n-2=8,查t分布表得
tα/2(n-2)=t0.025(8)=2.306
且當(dāng)x0=16000時(shí):
∴鋼產(chǎn)量y0的預(yù)測(cè)區(qū)間為:
即:
也就是說(shuō),我們可以95%的概率保證,當(dāng)固定資產(chǎn)投資額為16000萬(wàn)元時(shí),鋼產(chǎn)量在47.52萬(wàn)噸與83.30萬(wàn)噸之間。
控制則是預(yù)測(cè)的反問(wèn)題,即要求觀測(cè)值在某區(qū)間(y1,y2)內(nèi)取值時(shí),問(wèn)x應(yīng)控制在什么范圍內(nèi)。也即要求以一定的置信度求出相應(yīng)的x1、x2,使得x1<x<x2時(shí),x所對(duì)應(yīng)的觀測(cè)值y落在(y1,y2)內(nèi)。如當(dāng)置信度為95.45%時(shí),可利用
解出x1,x2作為控制x的上下限。顯然,要實(shí)現(xiàn)控制,必須使區(qū)間(y1,y2)的長(zhǎng)度小于4Sy,即應(yīng)有y2-y1<4Sy。
六、對(duì)總體回歸方程參數(shù)的區(qū)間估計(jì)
若顯著性水平為α,則β1的1-α的置信區(qū)間為:
若顯著性水平為α,則β0的1-α的置信區(qū)間為:
例如,在顯著性水平α=0.05時(shí),利用例7-1中的資料及計(jì)算結(jié)果對(duì)總體回歸方程參數(shù)β0、β1進(jìn)行估計(jì)。
參數(shù)β0的估計(jì):
α=0.05時(shí),tα/2(n-2)=t0.025(8)=2.306
由前知:
Sy=7.32 ∑x2=8095238086 Lxx=2346656422
故
則
即
41.22≤β0≤61.06
參數(shù)β1的估計(jì):
則
即
0.000544≤β1≤0.00124
因此,有95%的把握確信總體回歸方程參數(shù)β0落在41.22~61.06之間;參數(shù)β1落在0.000544~0.00124之間。
免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。