精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

        ? 首頁(yè) ? 理論教育 ?兩個(gè)變量的相關(guān)系數(shù)怎么求

        兩個(gè)變量的相關(guān)系數(shù)怎么求

        時(shí)間:2023-03-17 理論教育 版權(quán)反饋
        【摘要】:第五節(jié) 相關(guān)分析一、相關(guān)分析前面所述回歸分析的特點(diǎn)是從自變量推算因變量,這是一種函數(shù)關(guān)系的分析。而相關(guān)分析則表示兩個(gè)變量的密切程度,是雙方向的。在直線相關(guān)條件下,說(shuō)明兩變量之間關(guān)系密切程度的統(tǒng)計(jì)分析指標(biāo)是相關(guān)系數(shù);在曲線相關(guān)條件下,說(shuō)明兩變量之間關(guān)系密切程度的統(tǒng)計(jì)分析指標(biāo)是相關(guān)指數(shù)。
        相關(guān)分析_統(tǒng)計(jì)學(xué)教程

        第五節(jié) 相關(guān)分析

        一、相關(guān)分析

        前面所述回歸分析的特點(diǎn)是從自變量推算因變量,這是一種函數(shù)關(guān)系的分析。但是對(duì)于社會(huì)經(jīng)濟(jì)現(xiàn)象的分析,有時(shí)并不著重從一個(gè)變量或幾個(gè)變量來(lái)估計(jì)另外的變量,而在于要了解變量之間相關(guān)關(guān)系的密切程度。測(cè)定變量之間相關(guān)關(guān)系密切程度的方法叫相關(guān)分析。

        回歸分析和相關(guān)分析是有區(qū)別的。以單相關(guān)為例,回歸分析表示一個(gè)變量隨著另一個(gè)變量而變化,它是單方向的。一般x是給定的值作為自變量,y是假設(shè)具有正態(tài)分布的隨機(jī)變量,作為因變量。反過(guò)來(lái),如果以y作為給定的自變量,以x作為因變量,我們也可以應(yīng)用最小平方法求得一條回歸線,但是與根據(jù)x求y的回歸線是不同的(各觀察點(diǎn)全部落在一條直線上的特例除外)。而相關(guān)分析則表示兩個(gè)變量的密切程度,是雙方向的。雖然x和y仍然是配對(duì)的變量,但兩者都是假設(shè)為具有正態(tài)分布的隨機(jī)變量,所要測(cè)量的是x與y之間關(guān)系的密切程度。在直線相關(guān)條件下,說(shuō)明兩變量之間關(guān)系密切程度的統(tǒng)計(jì)分析指標(biāo)是相關(guān)系數(shù);在曲線相關(guān)條件下,說(shuō)明兩變量之間關(guān)系密切程度的統(tǒng)計(jì)分析指標(biāo)是相關(guān)指數(shù)。

        二、相關(guān)系數(shù)的測(cè)定

        在回歸方程的顯著性檢驗(yàn)中曾講到,若x,y間的線性相關(guān)程度越大,回歸方程的代表性越高,即回歸方程的顯著性與x,y間的相關(guān)程度是一致的。對(duì)回歸方程的顯著性檢驗(yàn)我們用剩余變差Q加以判斷,因此我們?nèi)钥捎肣反映x,y間相關(guān)關(guān)系的密切程度。由前面的分析可知:

        img618

        回歸方程的顯著性取決于U在總變差Lyy中的比重,Q越小,U的比重越大,故我們用該比值來(lái)刻畫x,y間線性相關(guān)關(guān)系的密切程度。

        img619

        r2稱為判定系數(shù)(Determination coefficient),r稱為相關(guān)系數(shù)。由于U≤Lyy,可推出r2≤1,從而|r|≤1,即r的取值范圍是-1≤r≤1。r值的意義是:若0<r≤1,則x與y之間為正相關(guān),若-1≤r<0,則x與y之間為負(fù)相關(guān)。|r|越接近0,x與y之間的直線相關(guān)程度越小,r=0,則x與y毫無(wú)線性相關(guān)關(guān)系;反之,|r|越接近1,x與y之間的線性相關(guān)程度越高,|r|=1,則x與y間存在著確定的線性函數(shù)關(guān)系。但是,需要注意的是,r只表示x與y直線相關(guān)密切程度。當(dāng)|r|很小甚至等于0時(shí),并不一定表示x與y之間就不存在其他類型的關(guān)系,如曲線相關(guān)關(guān)系。

        例7-8:根據(jù)例7-1的資料計(jì)算相關(guān)系數(shù)。

        已知:Lxx=2346656422 Lyy=2297.25

           Lxy=2094756.51

        img620

        r=0.092表明鋼鐵工業(yè)固定資產(chǎn)投資總額與鋼產(chǎn)量之間線性正相關(guān)程度較高。

        三、相關(guān)系數(shù)的顯著性檢驗(yàn)及抽樣誤差

        若觀察資料不是來(lái)自總體的全部單位,而只是全及總體中的一部分,則所求得的相關(guān)系數(shù),叫樣本相關(guān)系數(shù)。根據(jù)抽樣原理,樣本相關(guān)系數(shù)r與總體相關(guān)系數(shù)ρ之間存在一定的誤差,因此,當(dāng)r較大時(shí),我們不能足以否定總體相關(guān)系數(shù)ρ=0,故需對(duì)樣本相關(guān)系數(shù)r進(jìn)行顯著性檢驗(yàn)。要確定r顯著或不顯著的具體界限,就需要了解r的分布。根據(jù)概率論證明,r的分布只與總體相關(guān)系數(shù)ρ及抽樣數(shù)目n有關(guān)。當(dāng)樣本是取自正態(tài)總體情況下,隨著n的增大,r也趨于正態(tài)分布,而且n越大,分布越集中,特別是當(dāng)ρ接近零時(shí),這種趨勢(shì)更為明顯。在n=10和n=50時(shí),r的分布如圖7-11和圖7-12所示,這些曲線在n>4時(shí)才是單峰曲線,且當(dāng)ρ=0時(shí),r的期望E(r)=0。

        img621

        圖7-11 r分布曲線圖(n=50)

        img622

        圖7-12 r分布曲線圖(n=10)

        從圖7-11中可以看出,當(dāng)n較小時(shí),由于r分布的離散程度較大,可能根據(jù)樣本觀測(cè)值算出的r的絕對(duì)值不是很小的數(shù)值,例如,r=0.8,但樣本所來(lái)自的總體的相關(guān)系數(shù)卻可以等于零,說(shuō)明樣本太小求出的高度相關(guān)是靠不住的,需要對(duì)r進(jìn)行顯著性檢驗(yàn),否則就要用大樣本計(jì)算,即n≥30。

        對(duì)r進(jìn)行顯著性檢驗(yàn),是用t檢驗(yàn)法來(lái)檢驗(yàn)H0:ρ=0這一統(tǒng)計(jì)假設(shè)是否可信。檢驗(yàn)統(tǒng)計(jì)量為:

        img623

        式中m為估計(jì)方程式的參數(shù)數(shù)目。若為常數(shù)項(xiàng)不為0的直線方程,則m=2。

        現(xiàn)對(duì)例7-8計(jì)算出的r進(jìn)行t檢驗(yàn)。設(shè)α=5%,問(wèn)根據(jù)這個(gè)n=10的小樣本計(jì)算出的r=0.902,是否可信為來(lái)自ρ=0的總體。

        img624

        根據(jù)自由度n-2=10-2=8,α=0.05,查t分布表得臨界值t0.05(8)=2.306。因5.91>2.306,故認(rèn)為原假設(shè)“ρ=0”不可信,即r=0.902表現(xiàn)顯著線性相關(guān)。

        對(duì)于相關(guān)系數(shù)抽樣誤差的測(cè)定,一般常用的方法是計(jì)算相關(guān)系數(shù)的抽樣誤差σr,其計(jì)算公式為:

        img625

        但總體相關(guān)系數(shù)ρ是未知的,可用樣本相關(guān)系數(shù)代替,其計(jì)算公式為:

        img626

        σr的意義是,若r的分布是正態(tài)分布,則可以95%的把握程度求出1.96σr,據(jù)以計(jì)算置信區(qū)間:

        r-1.96σr≤ρ≤r+1.96σr

        例7-9:根據(jù)例7-1的資料,以95%的把握程度估計(jì)總體相關(guān)系數(shù)ρ的置信區(qū)間。

        已知:n=10,m=2,r=0.902,則:

        img627

        0.902-1.96×0.066≤ρ≤0.902+1.96×0.066

               0.77≤ρ≤1.03

        這里用1.96σr計(jì)算的ρ的置信區(qū)間,其上限超出1是不合理的。這是由于所取樣本較小,r的分布不服從正態(tài)分布而是偏態(tài)分布所致。這時(shí)ρ的置信區(qū)間可寫為:

        在95%的概率保證下,0.77≤ρ≤1。

        四、相關(guān)系數(shù)陷阱

        相關(guān)系數(shù)的計(jì)算是數(shù)學(xué)方法的應(yīng)用,按公式計(jì)算,可以用于任何成對(duì)變量的資料,求出相關(guān)系數(shù)來(lái)。因此,在計(jì)算相關(guān)系數(shù)之前,必須通過(guò)定性分析從理論上和實(shí)踐上判明所擬研究的兩個(gè)變量之間是否存在著實(shí)質(zhì)性的聯(lián)系,這是應(yīng)用任何數(shù)學(xué)方法分析聯(lián)系關(guān)系的前提。

        在相關(guān)系數(shù)的具體應(yīng)用中,往往會(huì)出現(xiàn):在定性分析中兩個(gè)變量之間表現(xiàn)為高度相關(guān)關(guān)系,而求得的相關(guān)系數(shù)的絕對(duì)值卻很小;或者通常認(rèn)為不應(yīng)該存在線性相關(guān)關(guān)系的兩個(gè)變量,它們之間的相關(guān)系數(shù)的絕對(duì)值卻很大,這種現(xiàn)象稱為相關(guān)系數(shù)陷阱。相關(guān)系數(shù)陷阱存在的原因?yàn)椋?/p>

        1.異常值的影響。相關(guān)系數(shù)對(duì)異常值的反應(yīng)非常敏感,異常值的出現(xiàn)可能會(huì)產(chǎn)生一種虛幻的相關(guān)性,因此,計(jì)算相關(guān)系數(shù)時(shí)應(yīng)剔除異常值。

        2.變量的樣本方差過(guò)小。兩個(gè)高度線性相關(guān)的變量因其變化平穩(wěn)導(dǎo)致它們的樣本方差很小,從而求得的相關(guān)系數(shù)接近于零。這種情況下,樣本相關(guān)系數(shù)將不能準(zhǔn)確反映變量之間的相關(guān)程度。

        3.其他變量的媒介作用。兩個(gè)經(jīng)濟(jì)變量之間的高度相關(guān)關(guān)系,有時(shí)并不是由這兩個(gè)經(jīng)濟(jì)變量本身的內(nèi)在聯(lián)系所決定的,它完全可能由另外一個(gè)變量的媒介作用而形成高度相關(guān)。例如,在時(shí)序數(shù)列中,如果兩個(gè)經(jīng)濟(jì)變量都有很強(qiáng)的上升或下降的趨勢(shì),即均受時(shí)間因素的同方向變動(dòng)影響,會(huì)造成相關(guān)系數(shù)偏高,甚至在沒有什么聯(lián)系的變量間,也會(huì)因有相似的長(zhǎng)期趨勢(shì)而求出相當(dāng)高的相關(guān)系數(shù)。在這種情況下,最好剔除時(shí)間因素的影響后再求相關(guān)系數(shù)。

        五、等級(jí)相關(guān)系數(shù)的測(cè)定及檢驗(yàn)

        以上計(jì)算相關(guān)系數(shù)的方法是在假定兩個(gè)變量分布已知的情況下進(jìn)行的,當(dāng)兩變量分布未知時(shí),測(cè)定它們之間的相關(guān)程度需運(yùn)用等級(jí)相關(guān)(Rank regression)。等級(jí)相關(guān)是把x、y兩數(shù)列分別按數(shù)量大小順序分為1,2,…,n個(gè)等級(jí),再測(cè)定x等級(jí)、y等級(jí)間的相關(guān)程度的一種方法。等級(jí)相關(guān)又稱順位相關(guān)法。由于等級(jí)相關(guān)立足于觀察值的等級(jí)(或順序),而不依存于x與y之間某種特定的分布,因而稱非參數(shù)方法。若以rs表示等級(jí)相關(guān)系數(shù)(Rank regression coefficient),則:

        img628

        式中:n為等級(jí)的項(xiàng)數(shù);d=x等級(jí)-y等級(jí);∑d2為所有差量平方之和。

        當(dāng)x、y劃分的等級(jí)在數(shù)量上、順序上完全一致時(shí),∑d2=0,則rs=1,表明兩種等級(jí)完全正相關(guān),當(dāng)x、y劃分的等級(jí)順序完全相反時(shí),則rs=-1。例如,x1,x2,x3秩序?yàn)?,2,3,y1,y2,y3秩序?yàn)?,2,1,則:∑d2=(1-3)2+(2-2)2+(3-1)2=8,img629。這是兩種極端的情況,一般的情況有:-1≤rs≤1。

        例7-10:某廠對(duì)10名工人進(jìn)行了一項(xiàng)測(cè)驗(yàn),旨在估量他們的工作表現(xiàn)和產(chǎn)量間的相關(guān)關(guān)系,其資料及等級(jí)相關(guān)系數(shù)rs的計(jì)算見表7-6。

        表7-6   等級(jí)相關(guān)系數(shù)計(jì)算表

        img630

        將工作表現(xiàn)評(píng)分及平均日產(chǎn)量改為等級(jí)的方法是:最低定1等,最高定10等。遇有數(shù)值相同時(shí),取原有等級(jí)平均數(shù)。例如,工作表現(xiàn)評(píng)分中有兩位工人均為85分,原有等級(jí)為5等、6等,其平均數(shù)為5.5,即作為此兩個(gè)分?jǐn)?shù)的等級(jí)。

        由上表中資料算得:

        img631

        表明工作表現(xiàn)和日產(chǎn)量水平有較強(qiáng)的正相關(guān)關(guān)系。

        對(duì)等級(jí)相關(guān)系數(shù)rs的顯著性檢驗(yàn),在n≤30時(shí),其臨界值可由附錄二《斯皮爾曼秩相關(guān)系數(shù)臨界值表》中就α和n查得。在n>30時(shí),可用檢驗(yàn)統(tǒng)計(jì)量:

        img632

        上述統(tǒng)計(jì)量漸近服從自由度為n-2的t分布,故可利用t檢驗(yàn)來(lái)檢驗(yàn)rs的顯著性。

        六、復(fù)相關(guān)系數(shù)和偏相關(guān)系數(shù)的測(cè)定及檢驗(yàn)

        用于描述一元線性相關(guān)關(guān)系密切程度的相關(guān)系數(shù)也稱簡(jiǎn)單相關(guān)系數(shù),若度量多元線性相關(guān)關(guān)系各變量間的密切程度,則需計(jì)算復(fù)相關(guān)系數(shù)和偏相關(guān)系數(shù)。

        復(fù)相關(guān)系數(shù)描述因變量與所有自變量相關(guān)關(guān)系的密切程度。樣本復(fù)相關(guān)系數(shù)的計(jì)算公式為:

        img633

        對(duì)樣本復(fù)相關(guān)系數(shù)R需要進(jìn)行顯著性檢驗(yàn),即檢驗(yàn)H0:ρ=0是否可信,檢驗(yàn)統(tǒng)計(jì)量為:

        img634

        式中:p為自變量個(gè)數(shù)。當(dāng)F>Fα(n-p-1)時(shí)拒絕H0,說(shuō)明所有自變量與因變量間的相關(guān)關(guān)系是顯著的。

        在復(fù)相關(guān)的情況下,變量之間的相關(guān)關(guān)系是很復(fù)雜的,任意兩個(gè)變量之間都可能存在相關(guān)關(guān)系,如例7-4,高爐煤氣燃燒量、鍋爐負(fù)荷分別與蒸汽純耗標(biāo)煤具有相關(guān)關(guān)系,同時(shí)高爐煤氣燃燒量與鍋爐負(fù)荷之間也具有相關(guān)關(guān)系,這種任意兩個(gè)變量之間相關(guān)關(guān)系密切程度的度量通過(guò)計(jì)算偏相關(guān)系數(shù)完成。

        以例7-4的資料為例,由于在相關(guān)分析中,各個(gè)變量之間并不區(qū)分自變量和因變量,因此可將所有變量都記作x,依次為x1,x2,x3,因此,r12·3表示排除了x3的影響后,x1與x2對(duì)x3的偏相關(guān)系數(shù),其計(jì)算公式為:

        img635

        式中:r12,r13,r23分別是x1,x2,x3,之間兩兩的簡(jiǎn)單相關(guān)系數(shù)。對(duì)于更多變量的情況,計(jì)算偏相關(guān)系數(shù)的公式可依此類推。

        根據(jù)樣本資料計(jì)算出的偏相關(guān)系數(shù),檢驗(yàn)方法和過(guò)程類似于簡(jiǎn)單相關(guān)系數(shù),以檢驗(yàn)三個(gè)變量中兩個(gè)變量的偏相關(guān)系數(shù)為例,即檢驗(yàn)H0:ρ12·3=0是否可信,檢驗(yàn)統(tǒng)計(jì)量為:

        img636

        式中:m為回歸方程參數(shù)個(gè)數(shù),若為常數(shù)項(xiàng)不為0的二元線性方程,則m=3。

        現(xiàn)對(duì)例7-4的資料計(jì)算復(fù)相關(guān)系數(shù)和偏相關(guān)系數(shù)并進(jìn)行顯著性檢驗(yàn)(α=0.05)。

        首先計(jì)算復(fù)相關(guān)系數(shù)。

        根據(jù)已知條件及例7-5計(jì)算結(jié)果:

        img637

        下面進(jìn)行顯著性檢驗(yàn):

        img638

        查F分布表,F(xiàn)α(p,n-p-1)=F0.05(2,9)=4.26

        由于F=8>4.26,故認(rèn)為原假設(shè)ρ=0不可信,R=0.80表現(xiàn)顯著性相關(guān),即蒸汽純耗標(biāo)煤與高爐煤氣燃燒量和鍋爐負(fù)荷之間具有顯著的相關(guān)關(guān)系。

        然后計(jì)算偏相關(guān)系數(shù)。由于此例資料存在因果關(guān)系,故遵循回歸分析,依次用y,x1,x2表示蒸汽純耗標(biāo)煤、高爐煤氣燃燒量、鍋爐負(fù)荷。計(jì)算兩兩變量間的簡(jiǎn)單相關(guān)系數(shù)如下:

        img639

        同理,ry1=-0.79,ry2=-0.45。則:

        蒸汽純耗標(biāo)煤與高爐煤氣燃燒量之間的偏相關(guān)系數(shù)為:

        img640

        蒸汽純耗標(biāo)煤與鍋爐負(fù)荷之間的偏相關(guān)系數(shù)為:

        img641

        進(jìn)一步對(duì)ry1·2與ry2·1進(jìn)行檢驗(yàn),計(jì)算得到:

        img642

        查表得tα/2(n-m)=t0.025(9)=±2.262,由于ty1=-3.3<-2.262,-2.262<ty2=0.58<2.262,因此,蒸汽純耗標(biāo)煤與高爐煤氣燃燒量之間的偏相關(guān)系數(shù)顯著,與鍋爐負(fù)荷之間的偏相關(guān)系數(shù)不顯著。

        七、相關(guān)指數(shù)的測(cè)定

        曲線相關(guān)關(guān)系密切程度的度量需要通過(guò)計(jì)算相關(guān)指數(shù)來(lái)完成,這里僅根據(jù)例7-7的資料簡(jiǎn)單介紹樣本相關(guān)指數(shù)的計(jì)算。

        相關(guān)指數(shù)

        img643

        0.977接近于1,從樣本情況看回歸效果不錯(cuò)。

        相關(guān)與回歸是從不同角度對(duì)同一問(wèn)題的分析,所以關(guān)系很密切。在分析問(wèn)題時(shí),兩種方法一般要結(jié)合運(yùn)用,比如,利用相關(guān)系(指)數(shù)判斷變量之間的密切程度,據(jù)以確定是否使用考慮中的自變量,這種對(duì)自變量的篩選在復(fù)回歸中可以大大減少計(jì)算工作量,也可保證回歸分析的可靠性。在計(jì)算上,兩種方法的聯(lián)系表現(xiàn)在:一方面如上述先求出回歸方程和估計(jì)標(biāo)準(zhǔn)誤差,利用估計(jì)標(biāo)準(zhǔn)誤差計(jì)算相關(guān)系(指)數(shù);另一方面是反過(guò)來(lái),先求出相關(guān)系(指)數(shù),再利用相關(guān)系(指)數(shù)求回歸方程。這方面的內(nèi)容,讀者可參閱有關(guān)書籍。

        免責(zé)聲明:以上內(nèi)容源自網(wǎng)絡(luò),版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。

        我要反饋