精品欧美无遮挡一区二区三区在线观看,中文字幕一区二区日韩欧美,久久久久国色αv免费观看,亚洲熟女乱综合一区二区三区

<strong id="8hzhy"><ins id="8hzhy"></ins></strong>

<menuitem id="8hzhy"><rt id="8hzhy"></rt></menuitem>

? 首頁(yè) ? 理論教育 ?學(xué)習(xí)測(cè)評(píng)概述

學(xué)習(xí)測(cè)評(píng)概述

時(shí)間：2023-02-20 理論教育版權(quán)反饋

【摘要】：測(cè)驗(yàn)一詞的含義有狹義與廣義之分。狹義的測(cè)驗(yàn)是名詞，指的是在心理與教育測(cè)量中使用的量具，包括測(cè)驗(yàn)的文本和測(cè)驗(yàn)指導(dǎo)書，指導(dǎo)書包括編制原理、記分方法及解釋標(biāo)準(zhǔn)等。狹義的測(cè)驗(yàn)本質(zhì)上是一種觀察工具，例如“這是一份數(shù)學(xué)測(cè)驗(yàn)”。當(dāng)作動(dòng)詞用的“測(cè)驗(yàn)”與測(cè)量常常被混用。

第一節(jié)　學(xué)習(xí)測(cè)評(píng)概述

一、基本概念

(一)測(cè)量

測(cè)量(measurement)就是依據(jù)一定的法則使用量具對(duì)事物的特征進(jìn)行定量描述的過(guò)程。在教育與心理領(lǐng)域，測(cè)量就是依據(jù)一定的心理學(xué)和教育學(xué)理論(法則)，使用能引起受試者行為反應(yīng)的心理作業(yè)(量具，通常指試題)，并依據(jù)其反應(yīng)，對(duì)個(gè)體的心理特質(zhì)和教育成就進(jìn)行定量描述。

參照點(diǎn)是度量的起點(diǎn)，是測(cè)量的基本要素之一。測(cè)量的參照點(diǎn)不同，則測(cè)量的結(jié)果就不能相互比較。長(zhǎng)度、質(zhì)量、時(shí)間等的測(cè)量以自然的零點(diǎn)(也稱為絕對(duì)零點(diǎn))為參照點(diǎn)，若無(wú)自然的零點(diǎn)，就以一個(gè)共同約定的參照點(diǎn)為零點(diǎn)(也稱為相對(duì)零點(diǎn))。例如，攝氏溫度以水結(jié)冰的溫度為零點(diǎn)(0℃)。測(cè)量的另一基本要素是單位，如長(zhǎng)度是15米，其中“米”就是單位。沒(méi)有單位的數(shù)量含義是不明確的，一個(gè)好的單位應(yīng)具備確定的意義和恒定的價(jià)值(即相鄰兩個(gè)單位點(diǎn)的差別相等)。

教育與心理測(cè)量一般沒(méi)有絕對(duì)零點(diǎn)，也難以共同決定一個(gè)人為零點(diǎn)，因此只好各自采用不同的人為參照點(diǎn)(兩份試卷的試題不同，零分的意義也就不同)；另外，教育與心理測(cè)量的單位常常不具備恒定的價(jià)值和確定的意義，因此教育與心理測(cè)量結(jié)果也就不可直接相比。

(二)測(cè)驗(yàn)

測(cè)驗(yàn)一詞的含義有狹義與廣義之分。狹義的測(cè)驗(yàn)(Test)是名詞，指的是在心理與教育測(cè)量中使用的量具，包括測(cè)驗(yàn)的文本和測(cè)驗(yàn)指導(dǎo)書，指導(dǎo)書包括編制原理、記分方法及解釋標(biāo)準(zhǔn)等。狹義的測(cè)驗(yàn)本質(zhì)上是一種觀察工具，例如“這是一份數(shù)學(xué)測(cè)驗(yàn)”。廣義的測(cè)驗(yàn)(Testing)是動(dòng)詞，指的是對(duì)行為樣本的客觀和標(biāo)準(zhǔn)化的測(cè)量過(guò)程。行為樣本指的是從“行為總體”中抽取出來(lái)的一個(gè)代表性樣本，“行為總體”指的是所有的能反映我們欲測(cè)量的心理品質(zhì)的行為。因此，有人(鄭日昌)認(rèn)為，心理測(cè)驗(yàn)就是通過(guò)觀察人的少數(shù)有代表性的行為，對(duì)于貫穿在人的全部行為活動(dòng)中的心理特點(diǎn)作出推論和數(shù)量化分析的一種科學(xué)手段。

當(dāng)作動(dòng)詞用的“測(cè)驗(yàn)”與測(cè)量常常被混用。雖然二者都是要對(duì)事物的特征進(jìn)行量化，但測(cè)驗(yàn)的要求要嚴(yán)格得多，測(cè)驗(yàn)是一種標(biāo)準(zhǔn)化的測(cè)量，這種標(biāo)準(zhǔn)化體現(xiàn)在測(cè)驗(yàn)內(nèi)容的標(biāo)準(zhǔn)化、施測(cè)條件的標(biāo)準(zhǔn)化、評(píng)分細(xì)則的標(biāo)準(zhǔn)化和分?jǐn)?shù)解釋的標(biāo)準(zhǔn)化等等。

(三)評(píng)價(jià)

在教育領(lǐng)域，評(píng)價(jià)(Assessment)是指從多種角度以多種方法去評(píng)估一個(gè)人的知識(shí)或能力，以作為作業(yè)教學(xué)或輔導(dǎo)效果的證明或依據(jù)。評(píng)價(jià)是一個(gè)更為一般化的術(shù)語(yǔ)，它包括獲取與學(xué)生學(xué)業(yè)有關(guān)信息的所有方法(觀察、表現(xiàn)或項(xiàng)目評(píng)價(jià)、紙筆測(cè)驗(yàn))，也包括對(duì)學(xué)生學(xué)業(yè)進(jìn)行的價(jià)值判斷過(guò)程。

評(píng)價(jià)與測(cè)量和測(cè)驗(yàn)的不同之處在于，測(cè)量或測(cè)驗(yàn)只是將測(cè)量對(duì)象的某一屬性加以數(shù)量化，并不涉及比較和判斷，但評(píng)價(jià)除了對(duì)學(xué)生進(jìn)行定量描述(測(cè)量)和定性描述(非測(cè)量)資料的匯集外，還包括了解釋資料、綜合各種資料，最后根據(jù)教學(xué)目標(biāo)來(lái)作比較和判斷，包含了對(duì)結(jié)果的價(jià)值判斷。圖10-1表現(xiàn)了評(píng)價(jià)的全面性以及測(cè)量(或測(cè)驗(yàn))和非測(cè)量手段在評(píng)價(jià)過(guò)程中的作用。

圖10-1　評(píng)價(jià)過(guò)程

通過(guò)上述可見，學(xué)習(xí)測(cè)評(píng)是指采用測(cè)量手段收集對(duì)學(xué)生某種屬性的定量描述資料，并作出評(píng)價(jià)的過(guò)程。

二、測(cè)量與評(píng)價(jià)的功能

(一)促進(jìn)教師的教學(xué)

1.了解學(xué)生的起點(diǎn)行為

摸清學(xué)生的學(xué)習(xí)和發(fā)展?fàn)顩r，是因材施教的前提。任何一次成功的教育活動(dòng)，如果不是建立在尊重學(xué)生已有的學(xué)習(xí)和發(fā)展?fàn)顩r的基礎(chǔ)上是不可思議的。因此，在教學(xué)或教育前，教師可以先針對(duì)學(xué)生實(shí)施一次測(cè)量，用來(lái)評(píng)價(jià)學(xué)生在學(xué)習(xí)之前已具有的背景知識(shí)，以作為決定有效教學(xué)的起點(diǎn)。

2.作為改進(jìn)教學(xué)的參考

根據(jù)教學(xué)測(cè)量與評(píng)價(jià)的結(jié)果，教師可以明了自己在教學(xué)上的缺失。例如，教學(xué)過(guò)程中，有哪些教學(xué)方法或教材的選擇、組織或聯(lián)系不當(dāng)，是否需要調(diào)整或改變教學(xué)策略等。測(cè)量與評(píng)價(jià)的結(jié)果，為教師改進(jìn)教學(xué)提供了十分有用的參考信息。

3.確保教學(xué)目標(biāo)的達(dá)到

教學(xué)測(cè)量與評(píng)價(jià)的最終目的在于確保教學(xué)目標(biāo)的達(dá)到。根據(jù)測(cè)量與評(píng)價(jià)結(jié)果，教師可以知道目前的教學(xué)情況離目標(biāo)有多遠(yuǎn)，是否需要修正目標(biāo)或改變教學(xué)策略，是否需要改換教材及教法等。比如，在單元、期中、期末學(xué)習(xí)后，為了檢驗(yàn)教育工作的好壞，便少不了全面了解學(xué)生對(duì)學(xué)習(xí)內(nèi)容的掌握情況。這是檢查前一段工作的效果，也是進(jìn)一步進(jìn)行教育工作的基礎(chǔ)。

4.評(píng)定學(xué)生的學(xué)習(xí)成果

教學(xué)測(cè)量與評(píng)價(jià)除了具有上述功能外，其最初的用途即在于針對(duì)學(xué)生的學(xué)習(xí)成就進(jìn)行等級(jí)評(píng)定，以作為其學(xué)業(yè)成就的代表，同時(shí)又可以提供作為其他教育研究用途的指標(biāo)。比如，進(jìn)行不同教學(xué)方法的比較研究，究竟哪種教學(xué)方法效果好，其經(jīng)常采用的指標(biāo)就是學(xué)生的學(xué)業(yè)成就。

(二)促進(jìn)學(xué)生的學(xué)習(xí)

1.診斷學(xué)習(xí)的作用

(1)診斷學(xué)生的學(xué)習(xí)。對(duì)測(cè)量結(jié)果的分析，可以讓教師了解學(xué)生的學(xué)習(xí)類型。如果該測(cè)量過(guò)程是經(jīng)過(guò)特殊設(shè)計(jì)，含有診斷不尋常反應(yīng)、錯(cuò)誤概念和反應(yīng)心向等不正確選項(xiàng)的話，在對(duì)測(cè)量結(jié)果分析之后，更能進(jìn)一步提供給教師診斷學(xué)生在認(rèn)知結(jié)構(gòu)的哪些地方有缺失信息，這些信息可以作為教師實(shí)施補(bǔ)救教學(xué)的參考。

(2)作為補(bǔ)救教學(xué)的依據(jù)。由診斷學(xué)習(xí)獲得的信息，可以作為教師實(shí)施補(bǔ)救教學(xué)的依據(jù)。教師可以針對(duì)不同學(xué)習(xí)類型的學(xué)習(xí)行為特性，以及不同認(rèn)知結(jié)構(gòu)缺陷的所在，有針對(duì)性地提出符合個(gè)別需要的補(bǔ)救教學(xué)的策略與措施，以達(dá)到因材施教的目的。

(3)改進(jìn)命題的技巧。測(cè)量后的試題分析信息，可以提供給教師關(guān)于所編制測(cè)驗(yàn)的統(tǒng)計(jì)特征(如難度、區(qū)分度等等)，根據(jù)這些信息，教師能夠進(jìn)一步找出不良試題所在，以確保教師所編制的試題均屬于性能優(yōu)良的試題，并且可以被保留在題庫(kù)內(nèi)，供日后編制新測(cè)驗(yàn)或復(fù)本測(cè)驗(yàn)時(shí)使用。

2.幫助學(xué)習(xí)的作用

(1)激勵(lì)學(xué)生的學(xué)習(xí)動(dòng)機(jī)。一份有效的成就測(cè)驗(yàn)，可以通過(guò)以下幾個(gè)方面直接影響學(xué)生的學(xué)習(xí)：①為學(xué)生提供了短期的學(xué)習(xí)目標(biāo)；②明確了所要學(xué)習(xí)的內(nèi)容；③提供了有關(guān)學(xué)習(xí)進(jìn)步的反饋信息。因此，對(duì)教育測(cè)量與評(píng)價(jià)的正確使用，不僅可以引導(dǎo)學(xué)習(xí)目標(biāo)，提供學(xué)習(xí)成果的反饋，還能激勵(lì)學(xué)生進(jìn)行學(xué)習(xí)的動(dòng)機(jī)。

(2)幫助學(xué)生的記憶和促進(jìn)遷移。因?yàn)榻逃郎y(cè)量與評(píng)價(jià)可以引導(dǎo)學(xué)生朝教學(xué)目標(biāo)努力，因此，教育測(cè)量與評(píng)價(jià)可以促進(jìn)學(xué)生的學(xué)習(xí)記憶和學(xué)習(xí)遷移。尤其是較高層次的學(xué)習(xí)目標(biāo)，教育測(cè)量更可以引導(dǎo)學(xué)生關(guān)注這些較復(fù)雜、較深?yuàn)W的學(xué)習(xí)，彌補(bǔ)教學(xué)期望的效果。

(3)促進(jìn)學(xué)生自我評(píng)價(jià)。教育測(cè)量與評(píng)價(jià)可以提供反饋信息，讓學(xué)生了解自己在學(xué)習(xí)上的優(yōu)缺點(diǎn)，有哪些錯(cuò)誤的概念需要更正以及有哪些技能已達(dá)到熟練程度等，以促進(jìn)自我了解、自我認(rèn)可，幫助學(xué)生自己作出最佳的學(xué)習(xí)決策或制定出最佳的學(xué)習(xí)計(jì)劃等。

(三)促進(jìn)管理水平的提高

1.對(duì)教師的管理

測(cè)量與評(píng)價(jià)在對(duì)教師的管理中所起的作用具體體現(xiàn)在這幾個(gè)方面：一是教師的資格評(píng)定，即教師的專業(yè)知識(shí)水平是否達(dá)到基本要求，專業(yè)知識(shí)包括文化知識(shí)和教育心理學(xué)方面的知識(shí)；二是教師的教學(xué)藝術(shù)水平的評(píng)定，即對(duì)教師的教學(xué)能力進(jìn)行評(píng)定；三是教師的管理水平的評(píng)定，即對(duì)教師在學(xué)生班級(jí)管理方面的能力進(jìn)行評(píng)定；四是教師的個(gè)性評(píng)定。其中教師的資格和教學(xué)藝術(shù)水平的評(píng)定是其核心內(nèi)容。充分發(fā)揮教育測(cè)量與評(píng)價(jià)在教師管理中的作用，可以提高教師管理工作的科學(xué)性。

2.對(duì)管理工作的促進(jìn)

教育測(cè)量與評(píng)價(jià)對(duì)管理工作的促進(jìn)主要體現(xiàn)在這幾個(gè)方面：一是導(dǎo)向功能。教育測(cè)量與評(píng)價(jià)是根據(jù)教育目標(biāo)進(jìn)行的，它通過(guò)對(duì)現(xiàn)狀與目標(biāo)之間的差距進(jìn)行判斷，能有效地促進(jìn)被測(cè)量與評(píng)價(jià)的對(duì)象不斷接近預(yù)定的目標(biāo)。因此，通過(guò)評(píng)價(jià)目標(biāo)與指標(biāo)體系的引導(dǎo)，可以為學(xué)校指明辦學(xué)的方向，為教師與學(xué)生指明教與學(xué)的目標(biāo)。二是監(jiān)督檢查功能。利用教育測(cè)量與評(píng)價(jià)，我們可以全面地掌握教育的各種情況，及時(shí)地發(fā)現(xiàn)問(wèn)題解決問(wèn)題，對(duì)教學(xué)任務(wù)完成的數(shù)量與質(zhì)量進(jìn)行控制，為促進(jìn)、提高教育活動(dòng)的有效性提供科學(xué)的依據(jù)。

三、測(cè)量與評(píng)價(jià)的主要類型

(一)按測(cè)量與評(píng)價(jià)的時(shí)機(jī)所作的分類

1.形成性測(cè)量與評(píng)價(jià)

形成性測(cè)量與評(píng)價(jià)是在教學(xué)過(guò)程中途實(shí)施的，在性質(zhì)上大致相當(dāng)于現(xiàn)在的中小學(xué)單元測(cè)驗(yàn)。形成性測(cè)量與評(píng)價(jià)的目的，對(duì)教師而言是借此獲得教學(xué)過(guò)程中連續(xù)性的反饋，隨時(shí)知道學(xué)生們的學(xué)習(xí)成敗情形，作為隨時(shí)修正自己教學(xué)的參考。同時(shí)，形成性測(cè)量與評(píng)價(jià)對(duì)學(xué)生的學(xué)習(xí)，也可提供反饋信息。學(xué)生根據(jù)反饋的結(jié)果獲知自己學(xué)習(xí)后的表現(xiàn)情況，從而肯定或修正自己以后的學(xué)習(xí)方式。因此，在教學(xué)過(guò)程中，形成性測(cè)量與評(píng)價(jià)是不可缺少的。根據(jù)預(yù)訂的教學(xué)目標(biāo)，然后核對(duì)形成性測(cè)量與評(píng)價(jià)的結(jié)果，教師才能針對(duì)全班或個(gè)別學(xué)生的學(xué)習(xí)成敗情形，分別給予輔導(dǎo)。

2.總結(jié)性測(cè)量與評(píng)價(jià)

總結(jié)性測(cè)量與評(píng)價(jià)是用于教學(xué)結(jié)束后，在性質(zhì)上相當(dāng)于現(xiàn)在中小學(xué)所舉行的期末考試。其目的有兩個(gè)：其一是在教學(xué)目標(biāo)之下，檢查學(xué)生一學(xué)期來(lái)的學(xué)習(xí)達(dá)到了什么程度，從而判斷教學(xué)效果的優(yōu)劣。其二是根據(jù)總結(jié)性測(cè)量與評(píng)價(jià)的結(jié)果，評(píng)定學(xué)生的學(xué)習(xí)成果，并將評(píng)定結(jié)果通知學(xué)生家長(zhǎng)。

(二)按評(píng)價(jià)所參照的標(biāo)準(zhǔn)分類

1.常模參照測(cè)量與評(píng)價(jià)

常模參照測(cè)量與評(píng)價(jià)是將被試者水平與常模相比較，以評(píng)價(jià)被試者在團(tuán)體中的相對(duì)地位的一種測(cè)量與評(píng)價(jià)類型。也就是說(shuō)，常模參照測(cè)量與評(píng)價(jià)對(duì)學(xué)生學(xué)習(xí)成就的解釋，是采用了相對(duì)的觀點(diǎn)，學(xué)生在試卷上得到分?jǐn)?shù)的高低，只能看他在團(tuán)體中與常模比較后所顯示的位置，而不能憑測(cè)得的分?jǐn)?shù)本身而評(píng)定其成就的高低。例如，一次數(shù)學(xué)測(cè)試結(jié)果，某生得85分。只看其分?jǐn)?shù)并不能確定其水平的高低，必須結(jié)合全班學(xué)生分?jǐn)?shù)的情形才能確定。如全班平均分為65分，標(biāo)準(zhǔn)差為10分，那么該生的成績(jī)就位居前列。如全班平均分為85，該生的成績(jī)剛好中等。如全班平均分為90分，標(biāo)準(zhǔn)差為5分，那該生的成績(jī)就屬于較差的成績(jī)了。

2.標(biāo)準(zhǔn)參照測(cè)量與評(píng)價(jià)

標(biāo)準(zhǔn)參照測(cè)量與評(píng)價(jià)，是將被試者水平與一絕對(duì)標(biāo)準(zhǔn)相比較，以評(píng)價(jià)被試者有無(wú)達(dá)到該標(biāo)準(zhǔn)為目的，也稱為目標(biāo)參照測(cè)量與評(píng)價(jià)。例如，如果規(guī)定掌握所學(xué)內(nèi)容的80％為掌握，那么被試者在該測(cè)驗(yàn)上的得分超過(guò)80即可認(rèn)為其已掌握所學(xué)內(nèi)容。在學(xué)校的教學(xué)測(cè)量與評(píng)價(jià)上，主要目的在于考查學(xué)生對(duì)知識(shí)技能的掌握程度，因此一般都應(yīng)采用標(biāo)準(zhǔn)參照測(cè)量與評(píng)價(jià)。

(三)以測(cè)量與評(píng)價(jià)對(duì)被試行為表現(xiàn)的要求分類

1.最佳行為測(cè)量與評(píng)價(jià)

最佳行為測(cè)量與評(píng)價(jià)是以測(cè)量被試者的最佳行為表現(xiàn)為目的的。凡是以能力的高低作為評(píng)價(jià)基礎(chǔ)者，都屬于最佳行為測(cè)量。學(xué)校教學(xué)后的考試與升學(xué)考試，在性質(zhì)上都屬于最佳行為測(cè)量。此種測(cè)量與評(píng)價(jià)之所以稱為“最佳行為”，是因?yàn)樵谶@種以能力為基礎(chǔ)的評(píng)價(jià)情境下，被試者都將有強(qiáng)烈的求勝動(dòng)機(jī)，對(duì)面對(duì)的問(wèn)題全力以赴，希望自己有著最佳的表現(xiàn)。在一般情形下，學(xué)生參加競(jìng)爭(zhēng)性的考試都會(huì)如此。因此，學(xué)生們?cè)趯W(xué)科成就測(cè)驗(yàn)上得到的分?jǐn)?shù)，均可視為他們的最佳行為表現(xiàn)。教師對(duì)學(xué)生成就高低的評(píng)定，自然也是根據(jù)他的最佳行為表現(xiàn)。

2.典型行為測(cè)量與評(píng)價(jià)

典型行為測(cè)量與評(píng)價(jià)的目的不在測(cè)量與評(píng)價(jià)被試者能力的高低，而是測(cè)量與評(píng)價(jià)其是否具備某種(或某些)典型行為。換言之，典型行為測(cè)量與評(píng)價(jià)所關(guān)心的不是被試者能不能盡其所能地表現(xiàn)出其最佳水平，而是要求被試者按通常的習(xí)慣方式作出反應(yīng)(即典型行為)。如態(tài)度、情感、人格、興趣測(cè)量等等，都屬于典型行為測(cè)量。這些測(cè)量過(guò)程，希望被試者以其平常的典型狀況來(lái)回答，無(wú)所謂正確與錯(cuò)誤之分。

(四)以測(cè)量與評(píng)價(jià)本身的功能分類

1.描述性測(cè)量與評(píng)價(jià)和診斷性測(cè)量與評(píng)價(jià)

描述性測(cè)量與評(píng)價(jià)是指通過(guò)測(cè)量來(lái)評(píng)價(jià)某一特定群體或個(gè)體在某一心理特質(zhì)上的一般狀況。教師在教授新內(nèi)容之前，常關(guān)心兩個(gè)問(wèn)題：一是學(xué)生是否具備了學(xué)習(xí)新知識(shí)的基本知識(shí)或技能。二是在新學(xué)習(xí)的內(nèi)容中，有哪些知識(shí)與技能是學(xué)生們已經(jīng)熟悉的。教師為了解這兩點(diǎn)，通過(guò)一測(cè)驗(yàn)來(lái)達(dá)到了解的目的，這一測(cè)驗(yàn)就屬于描述性測(cè)量與評(píng)價(jià)，因?yàn)樗菍?duì)學(xué)生在掌握學(xué)科知識(shí)的一般狀況的描述。

診斷性測(cè)量與評(píng)價(jià)是對(duì)經(jīng)常表現(xiàn)出學(xué)習(xí)困難的學(xué)生所做的測(cè)量與評(píng)價(jià)，它的目的是對(duì)個(gè)人的問(wèn)題行為及其原因進(jìn)行診斷。診斷性測(cè)量與評(píng)價(jià)多半是在形成性測(cè)量與評(píng)價(jià)之后實(shí)施。形成性測(cè)量與評(píng)價(jià)是在教學(xué)過(guò)程中實(shí)施的，實(shí)施之后如發(fā)現(xiàn)學(xué)生有學(xué)習(xí)困難的情形，即隨時(shí)給予個(gè)別輔導(dǎo)，在輔導(dǎo)中幫助學(xué)生改善方法或習(xí)慣，從而克服學(xué)習(xí)困難，并跟上班級(jí)教學(xué)的進(jìn)度。如果輔導(dǎo)之后學(xué)生學(xué)習(xí)困難情形依舊，甚至日益嚴(yán)重，那可能就不是單純的學(xué)習(xí)方法或?qū)W習(xí)習(xí)慣的問(wèn)題。長(zhǎng)期表現(xiàn)學(xué)習(xí)困難的學(xué)生，很可能在心理上另有原因。在這種情形下就需要對(duì)他實(shí)施診斷性測(cè)量與評(píng)價(jià)。實(shí)施診斷性測(cè)量與評(píng)價(jià)時(shí)，除需要特別設(shè)計(jì)診斷測(cè)驗(yàn)外，還須有心理學(xué)家甚至精神科醫(yī)師的協(xié)助，才能診斷出真正的原因，而后再進(jìn)一步予以化解。

2.成就測(cè)驗(yàn)與預(yù)測(cè)測(cè)驗(yàn)

成就測(cè)驗(yàn)的目的是測(cè)量并評(píng)價(jià)個(gè)人在某一領(lǐng)域已經(jīng)達(dá)到的實(shí)際成就。預(yù)測(cè)測(cè)驗(yàn)的目的在于測(cè)量并評(píng)價(jià)個(gè)人在未來(lái)某一方面獲得成功的可能性大小。比如，學(xué)校的期末考試、現(xiàn)行的高中會(huì)考等，都屬于成就測(cè)驗(yàn)，它們都在于測(cè)量與評(píng)價(jià)學(xué)生現(xiàn)已達(dá)到的水平。會(huì)考合格說(shuō)明已符合高中畢業(yè)的標(biāo)準(zhǔn)。而高考則屬于預(yù)測(cè)測(cè)驗(yàn)，它的目的不在于檢驗(yàn)學(xué)生對(duì)教學(xué)內(nèi)容掌握程度的差異，而在于通過(guò)高考篩選出通過(guò)大學(xué)學(xué)習(xí)可能獲得成功的學(xué)生進(jìn)行大學(xué)學(xué)習(xí)。

3.難度測(cè)驗(yàn)與速度測(cè)驗(yàn)

難度測(cè)驗(yàn)的功能在于測(cè)量并評(píng)價(jià)個(gè)人能夠達(dá)到的最高水平。這類測(cè)驗(yàn)常包含各種不同難度的題目，由易到難排列，其中有一些極難的題目，幾乎所有被試者都回答不了。但作答時(shí)間較為充裕，使每個(gè)被試者都有機(jī)會(huì)做所有的題目，并在規(guī)定時(shí)間內(nèi)做完所有會(huì)做的題目，因此能測(cè)量到被試者的最高能力。速度測(cè)驗(yàn)的功能在于測(cè)量并評(píng)價(jià)個(gè)人解決問(wèn)題的最快速度。這類測(cè)驗(yàn)的題目較為容易，一般沒(méi)有超出被試者能力水平范圍的題，但數(shù)量較多，且時(shí)限較短，幾乎每個(gè)被試者都不能做完所有題目。在純粹的速度測(cè)驗(yàn)中，分?jǐn)?shù)完全依賴于被試者的反應(yīng)速度。

(五)按測(cè)量與評(píng)價(jià)的對(duì)象分類

1.智力測(cè)量與評(píng)價(jià)

智力測(cè)量與評(píng)價(jià)目的在于測(cè)量并評(píng)價(jià)個(gè)人智力水平的高低。國(guó)內(nèi)外用于智力測(cè)量與評(píng)價(jià)比較著名的智力測(cè)驗(yàn)有“斯坦福-比納量表”、“韋克斯勒智力量表”、“瑞文推理測(cè)驗(yàn)”等。

2.能力傾向測(cè)量與評(píng)價(jià)

能力傾向測(cè)量與評(píng)價(jià)目的在于測(cè)量并評(píng)價(jià)個(gè)人潛在的才能，預(yù)測(cè)個(gè)人的能力發(fā)展傾向。能力傾向測(cè)量與評(píng)價(jià)一般可分為兩種：一種是一般能力傾向測(cè)量與評(píng)價(jià)，測(cè)量個(gè)人多方面的潛能。另一種是特殊能力傾向測(cè)量與評(píng)價(jià)，測(cè)量個(gè)人的特殊潛在能力，如音樂(lè)能力傾向測(cè)驗(yàn)、機(jī)械能力傾向測(cè)驗(yàn)等。

3.成就測(cè)量與評(píng)價(jià)

成就測(cè)量與評(píng)價(jià)目的在于測(cè)量并評(píng)價(jià)個(gè)人在接受教育后的學(xué)業(yè)成就，因此也常稱為學(xué)業(yè)成就測(cè)量與評(píng)價(jià)。它有兩種類型：一是學(xué)科成就測(cè)量與評(píng)價(jià)，測(cè)量受教育者在某一科目上的學(xué)習(xí)成就；二是綜合成就測(cè)量與評(píng)價(jià)，測(cè)量受教育者在各學(xué)科上的綜合學(xué)業(yè)成就。

4.人格測(cè)量與評(píng)價(jià)

人格測(cè)量與評(píng)價(jià)也稱為個(gè)性測(cè)量與評(píng)價(jià)，其目的在于測(cè)量個(gè)性中諸如興趣、態(tài)度、動(dòng)機(jī)、氣質(zhì)、性格等方面的心理特征。由于人格的概念十分的寬泛，因此這類測(cè)量與評(píng)價(jià)工作涉及面也十分寬，而一次具體的測(cè)量與評(píng)價(jià)工作不可能涵蓋如此廣泛的內(nèi)容，所以常常有所偏重。人格測(cè)量與評(píng)價(jià)主要有兩類：一是自陳人格問(wèn)卷，比較著名的有“明尼蘇達(dá)多相人格調(diào)查表(MMPI)”、“卡特爾16PF測(cè)驗(yàn)”、“艾森克人格問(wèn)卷(EPQ)”等。另一類是投射測(cè)驗(yàn)，如“羅夏克墨跡測(cè)驗(yàn)”、“主題統(tǒng)覺(jué)測(cè)驗(yàn)”等。

四、有效測(cè)評(píng)的必要條件

(一)效度

效度(Validity)是指當(dāng)測(cè)驗(yàn)用于某一特定目的時(shí)，對(duì)于支持測(cè)驗(yàn)分?jǐn)?shù)解釋的那些事實(shí)和理論憑證的有效程度。不能離開測(cè)量目的來(lái)談效度，例如，通過(guò)一個(gè)數(shù)學(xué)測(cè)驗(yàn)的得分來(lái)推測(cè)學(xué)生的數(shù)學(xué)能力可能是比較有效的，而通過(guò)該測(cè)驗(yàn)來(lái)推測(cè)學(xué)生的語(yǔ)言能力可能是無(wú)效的。

效度驗(yàn)證(Validation)指的是為了評(píng)價(jià)一個(gè)測(cè)驗(yàn)分?jǐn)?shù)解釋是否有效，而多方面多角度地收集證據(jù)的過(guò)程。究竟應(yīng)該收集哪些證據(jù)，要依據(jù)測(cè)驗(yàn)分?jǐn)?shù)將作何種用途而定。所以，要進(jìn)行效度驗(yàn)證，首先，要有對(duì)測(cè)量目的的詳細(xì)描述，包括測(cè)驗(yàn)要測(cè)什么，測(cè)驗(yàn)分?jǐn)?shù)如何解釋，依據(jù)測(cè)驗(yàn)分?jǐn)?shù)可作出哪些推論或決策，以及這些推論或決策與測(cè)驗(yàn)分?jǐn)?shù)之間的相關(guān)等。其次，對(duì)測(cè)驗(yàn)?zāi)康倪M(jìn)行分析，設(shè)定一套前提來(lái)確定哪樣證據(jù)在效度驗(yàn)證中是重要的。

效度憑證的來(lái)源主要有三個(gè)方面：

1.來(lái)自測(cè)驗(yàn)內(nèi)容的證據(jù)。測(cè)驗(yàn)最早的用途之一，就是評(píng)定個(gè)體在指定的內(nèi)容領(lǐng)域已經(jīng)學(xué)會(huì)了什么。學(xué)科的期終考試，以及各種職業(yè)資格考試，都體現(xiàn)了這種用途。這類測(cè)驗(yàn)通常有較明確的內(nèi)容范疇(Content domain)，測(cè)驗(yàn)編制時(shí)需要根據(jù)測(cè)驗(yàn)?zāi)繕?biāo)從內(nèi)容范疇中進(jìn)行內(nèi)容抽樣。內(nèi)容抽樣可依據(jù)事先制訂的內(nèi)容雙向細(xì)目表(Content specifications)來(lái)進(jìn)行，最終評(píng)價(jià)測(cè)驗(yàn)效度時(shí)，也要對(duì)照內(nèi)容雙向細(xì)目表，考察測(cè)驗(yàn)內(nèi)容抽樣的代表性。

考察測(cè)驗(yàn)的內(nèi)容抽樣的代表性的方法，主要是邏輯分析法。具體做法是請(qǐng)學(xué)科或測(cè)驗(yàn)專家，針對(duì)編制測(cè)驗(yàn)的雙向細(xì)目表，仔細(xì)判斷每個(gè)試題是否與測(cè)量目標(biāo)相符，如果測(cè)驗(yàn)試題是用來(lái)測(cè)量測(cè)驗(yàn)?zāi)繕?biāo)內(nèi)容和預(yù)期行為改變的代表性樣本，且不受其他無(wú)關(guān)因素(例如，閱讀能力、指導(dǎo)語(yǔ)不清楚)影響的話，則從測(cè)驗(yàn)內(nèi)容的角度證明測(cè)驗(yàn)是有效的。

除了采用專家的判斷之外，也有學(xué)者提出了采用實(shí)證的方法來(lái)探討測(cè)驗(yàn)的內(nèi)容抽樣代表性。例如，(1)前后測(cè)試差異法。在傳授某種知識(shí)之前與之后，對(duì)學(xué)習(xí)者分別測(cè)試，依據(jù)兩次測(cè)試成績(jī)間的相關(guān)來(lái)分析效度的高低。(2)克龍巴赫獨(dú)立抽樣相關(guān)法。從同一教學(xué)內(nèi)容總體中抽取兩套獨(dú)立的測(cè)驗(yàn)項(xiàng)目，用這兩套試題分別對(duì)同一批被試者施測(cè)，依據(jù)兩次測(cè)驗(yàn)得分之間的相關(guān)來(lái)分析測(cè)驗(yàn)效度的高低。

另一個(gè)容易和測(cè)驗(yàn)內(nèi)容代表性產(chǎn)生混淆的概念是表面效度(Face validity)。表面效度是指測(cè)驗(yàn)給被試者或一般人的印象“好像”是在測(cè)量某種特質(zhì)，而不是指測(cè)驗(yàn)事實(shí)上能測(cè)量到什么特質(zhì)。表面效度的存在，有時(shí)可以激勵(lì)學(xué)生認(rèn)真作答，表現(xiàn)接受測(cè)驗(yàn)的合作意愿，因?yàn)樗翱雌饋?lái)”像是在測(cè)量某種特質(zhì)，比較容易吸引人注意。但是，表面效度并不是真正的效度，它不可以用來(lái)從內(nèi)容代表性的角度來(lái)檢驗(yàn)測(cè)驗(yàn)效度。

2.來(lái)自預(yù)測(cè)行為的證據(jù)。測(cè)驗(yàn)的另一個(gè)重要用途是“預(yù)測(cè)”。預(yù)測(cè)現(xiàn)在或?qū)?lái)，不同個(gè)體在一定的情境中會(huì)怎樣反應(yīng)?同一個(gè)體在不同指定情境中會(huì)怎樣反應(yīng)?所要預(yù)測(cè)的行為在情境中的表現(xiàn)被稱為效標(biāo)。出于這種目的，通常以測(cè)驗(yàn)分?jǐn)?shù)與該效標(biāo)的直接的、獨(dú)立的測(cè)量之間的相關(guān)系數(shù)作為測(cè)驗(yàn)效度的憑證。因此，從測(cè)驗(yàn)預(yù)測(cè)的行為角度收集效度證據(jù)，首先要確定能代表預(yù)測(cè)行為的指標(biāo)，即效標(biāo)測(cè)量。

所要預(yù)測(cè)的行為在情境中的表現(xiàn)，往往是一個(gè)觀念上的東西(觀念效標(biāo))，它必須用一個(gè)數(shù)字或等級(jí)來(lái)進(jìn)行表達(dá)(效標(biāo)測(cè)量)。例如，大學(xué)入學(xué)考試的觀念效標(biāo)通常是“大學(xué)學(xué)習(xí)成功”，它的一種常用的效標(biāo)測(cè)量便是大學(xué)頭兩年或一年相關(guān)學(xué)科的平均成績(jī)。

一個(gè)測(cè)驗(yàn)有多少種具體用途，就可以根據(jù)多少種效標(biāo)進(jìn)行效度分析。評(píng)定任何情境中行為的任何方法，為某種特定目的提供一種效標(biāo)測(cè)量，即同一觀念效標(biāo)可能有多個(gè)效標(biāo)測(cè)量。例如，對(duì)智力測(cè)驗(yàn)進(jìn)行效度分析時(shí)最常用的一種效標(biāo)是學(xué)業(yè)成就，而作為學(xué)業(yè)成就的效標(biāo)測(cè)量可能包括在校成績(jī)、成就測(cè)驗(yàn)分?jǐn)?shù)、升級(jí)或畢業(yè)記錄、某種榮譽(yù)或獎(jiǎng)勵(lì)，以及教師對(duì)學(xué)生的“智力”評(píng)定等等。所以，選擇一個(gè)好的效標(biāo)和一個(gè)好的效標(biāo)測(cè)量，對(duì)于效度分析來(lái)說(shuō)十分重要。在心理與教育測(cè)量工作中，常用的效標(biāo)主要有：學(xué)業(yè)成就、等級(jí)評(píng)定、臨床診斷、專門的訓(xùn)練成績(jī)、實(shí)際的工作表現(xiàn)、對(duì)團(tuán)體的區(qū)分能力以及其他現(xiàn)成的有效測(cè)驗(yàn)。

具體的估計(jì)方法，除了相關(guān)法之外，還有：①區(qū)分法。根據(jù)效標(biāo)將被試者分為兩個(gè)極端組，然后檢驗(yàn)這兩組人測(cè)驗(yàn)分?jǐn)?shù)的差異顯著性。②命中率。正命中率：取舍測(cè)驗(yàn)中，錄取人員中合格的人數(shù)比率。負(fù)命中率：取舍測(cè)驗(yàn)中，未錄取人員中不合格的人數(shù)比率。總命中率：正、負(fù)命中率的加權(quán)平均。

選擇效標(biāo)和效標(biāo)測(cè)量時(shí)，要注意防止效標(biāo)污染(Criterion contamination)，即效標(biāo)評(píng)定受到評(píng)定者知道測(cè)驗(yàn)分?jǐn)?shù)的“污染”。例如，一位老師知道某學(xué)生在一個(gè)能力傾向測(cè)驗(yàn)上得分很低，這類消息可能會(huì)影響他對(duì)該學(xué)生的成績(jī)?cè)u(píng)定。出于這種原因，對(duì)測(cè)驗(yàn)分?jǐn)?shù)進(jìn)行檢驗(yàn)時(shí)，使用的測(cè)驗(yàn)分?jǐn)?shù)必須嚴(yán)格保密。

3.來(lái)自內(nèi)部結(jié)構(gòu)的證據(jù)。結(jié)構(gòu)是一種廣泛的范疇，源自直接可觀察的行為變量共同具有的一般特性。結(jié)構(gòu)又是一種理論實(shí)體，本身無(wú)法直接觀察。而測(cè)驗(yàn)內(nèi)部結(jié)構(gòu)的分析，可以表明試題和試卷各部分與所測(cè)構(gòu)念的關(guān)系的密切程度。測(cè)驗(yàn)分?jǐn)?shù)的建議解釋，便是建立在這些構(gòu)念的基礎(chǔ)上。一個(gè)測(cè)驗(yàn)的概念架構(gòu)可能是某種行為的某一方面，也可能是由幾個(gè)部分組成。每個(gè)組成部分本身是單一的，但互相之間又截然不同。例如，一個(gè)健康問(wèn)卷可能測(cè)量生理健康和情緒健康方面的不適狀況。因此，試題之間的關(guān)系證明結(jié)構(gòu)假設(shè)程度是與效度有關(guān)的，并且是基本的效度分析。

來(lái)自內(nèi)部結(jié)構(gòu)證據(jù)的分析方法有很多，但當(dāng)前主要使用的方法是結(jié)構(gòu)方程建模法。結(jié)構(gòu)方程建模的第一步是根據(jù)理論提出一個(gè)待檢驗(yàn)的、假設(shè)的結(jié)構(gòu)關(guān)系模型，然后考察實(shí)測(cè)的數(shù)據(jù)是否與預(yù)設(shè)的模型關(guān)系相吻合。結(jié)構(gòu)方程建模一個(gè)突出的特點(diǎn)是，計(jì)算結(jié)構(gòu)之間典型的因素關(guān)系，而不是孤立地測(cè)量變量之間的因素關(guān)系。例如，要評(píng)價(jià)一個(gè)學(xué)生的數(shù)學(xué)態(tài)度，可以采用若干指標(biāo)，諸如興趣、目標(biāo)定向、數(shù)學(xué)能力傾向的自我概念，以及其他有關(guān)的情感變量等度量。這些指標(biāo)之間的共同方差就界定該學(xué)生數(shù)學(xué)態(tài)度的一種結(jié)構(gòu)，它本身與隨后的數(shù)學(xué)成績(jī)有關(guān)。這樣使用結(jié)構(gòu)，各個(gè)指標(biāo)的誤差方差和特定方差相互抵消，因而提供更為穩(wěn)定和可靠的估計(jì)值。

(二)信度

信度(Reliability)是指在不同時(shí)間，使用同一測(cè)驗(yàn)，或者使用兩個(gè)不同項(xiàng)目的等值測(cè)驗(yàn)，抑或在其他不同的測(cè)試條件下，對(duì)同一組被試者實(shí)施兩次或多次測(cè)試所得分?jǐn)?shù)的一致性。測(cè)驗(yàn)信度表示測(cè)驗(yàn)分?jǐn)?shù)中個(gè)體差異可歸因于所測(cè)特質(zhì)中“真實(shí)”差異的程度，以及隨機(jī)誤差的程度。

經(jīng)典測(cè)驗(yàn)理論的信度系數(shù)主要有三類：(1)重測(cè)信度(Test-retest coefficients)，是指用同一個(gè)量表對(duì)同一組被試者施測(cè)兩次所得結(jié)果的一致性程度，其大小等于同一組被試者在兩次測(cè)驗(yàn)上所得分?jǐn)?shù)的相關(guān)系數(shù)；(2)復(fù)本信度(Alternative-form coefficients)，是指兩個(gè)平行的測(cè)驗(yàn)測(cè)量同一批被試者所得結(jié)果的一致性程度，其大小等于同一批被試者在兩個(gè)復(fù)本測(cè)驗(yàn)上所得分?jǐn)?shù)的相關(guān)系數(shù)；(3)內(nèi)部一致性系數(shù)(Internal consistency coefficients)也叫同質(zhì)性信度(Homogeneity reliability)，是指測(cè)驗(yàn)內(nèi)部所有題目間的一致性程度，主要的計(jì)算方法有KR20公式、KR21公式、克龍巴赫α系數(shù)，以及荷伊特信度等。

另外，分半信度(Split-half reliability)指的是將一個(gè)測(cè)驗(yàn)分成對(duì)等的兩半后，所有被試者在這兩半上所得分?jǐn)?shù)的一致性程度。分半信度可以和復(fù)本信度一樣解釋，即可以把對(duì)等的兩半測(cè)驗(yàn)看成是在最短時(shí)距內(nèi)施測(cè)的兩個(gè)平行測(cè)驗(yàn)。由于分半信度描述的是兩半題目間的一致性，所以它有時(shí)也被看作是內(nèi)部一致性系數(shù)。

一般而言，測(cè)驗(yàn)信度越高越好。表10-1給出了一些標(biāo)準(zhǔn)化測(cè)驗(yàn)的信度系數(shù)，教師自編測(cè)驗(yàn)一般來(lái)說(shuō)信度低一些，但信度系數(shù)至少應(yīng)在0.60以上。

表10-1　信度系數(shù)的一般標(biāo)準(zhǔn)

(三)辨別力

辨別力是測(cè)驗(yàn)對(duì)在所測(cè)的特質(zhì)或能力方面有所不同的那些人作出分辨的能力。一個(gè)測(cè)驗(yàn)是否能有較高的辨別力，取決于各組成項(xiàng)目的特性，主要指項(xiàng)目的難度和區(qū)分度。

1.難度

難度一般是指測(cè)驗(yàn)項(xiàng)目的難度，當(dāng)然也可以指一個(gè)測(cè)驗(yàn)的難度，后者是測(cè)驗(yàn)包含的所有測(cè)題難度的綜合指標(biāo)。測(cè)驗(yàn)項(xiàng)目的難度，就是被試者完成項(xiàng)目作答任務(wù)所遇到的困難程度，一般以全體被試者在該題上的得分率為指標(biāo)：

式中，P代表項(xiàng)目難度，X-為被試者在某項(xiàng)目上的平均得分，X_max為該項(xiàng)目的滿分。

試題難度影響到測(cè)驗(yàn)的辨別力。例如，如果一份測(cè)驗(yàn)試題過(guò)分容易，使得參加測(cè)驗(yàn)的成員分?jǐn)?shù)都集中在高分端，它就不可能把知識(shí)多和知識(shí)少的學(xué)生區(qū)別開來(lái)。一般的標(biāo)準(zhǔn)化常模參照測(cè)驗(yàn)，目的是要盡可能地區(qū)分被試者的個(gè)別差異，因此希望測(cè)驗(yàn)后所有被試者的分?jǐn)?shù)“盡可能拉開距離”。這樣，測(cè)驗(yàn)項(xiàng)目的恰當(dāng)難度，就應(yīng)該是P值盡量接近0.50。研究表明，整個(gè)測(cè)驗(yàn)的測(cè)題難度指數(shù)分布在0.30至0.70之間，而整個(gè)測(cè)驗(yàn)的難度指數(shù)最好在0.50左右，這樣不僅使測(cè)驗(yàn)對(duì)被試者有較大的鑒別力，而且可以使測(cè)驗(yàn)分?jǐn)?shù)接近正態(tài)分布。對(duì)于具有特殊目的的測(cè)驗(yàn)來(lái)說(shuō)，大多數(shù)測(cè)題的難度不一定要集中在0.50左右。如果測(cè)驗(yàn)的目的在于選拔人才，那么測(cè)題的難度指數(shù)，應(yīng)由錄取率而定。例如，要從高中生中選拔15％的人參加全市的數(shù)學(xué)競(jìng)賽，則就應(yīng)提高項(xiàng)目的難度，使P值接近0.15。

一般來(lái)說(shuō)，標(biāo)準(zhǔn)參照測(cè)驗(yàn)的難度分析是沒(méi)有必要進(jìn)行的，因?yàn)闃?biāo)準(zhǔn)參照測(cè)驗(yàn)的目的是在檢驗(yàn)學(xué)生是否已達(dá)到教學(xué)目標(biāo)規(guī)定的掌握程度，不論試題的難易程度，關(guān)鍵看該題是否屬于教學(xué)目標(biāo)規(guī)定要掌握的內(nèi)容。

2.區(qū)分度

項(xiàng)目區(qū)分度就是項(xiàng)目區(qū)別被試者水平能力的量度。區(qū)分度的估計(jì)，可通過(guò)計(jì)算全體被試者的試題得分與總分之間的相關(guān)系數(shù)。依據(jù)題分與總分的數(shù)據(jù)形式，可計(jì)算積差相關(guān)系數(shù)、點(diǎn)二列相關(guān)系數(shù)等。

另一種估計(jì)區(qū)分度的方法是，用高分組在特定題目上的得分率和低分組在相同題目上的得分率之差作為題目區(qū)分度的指標(biāo)(高分組、低分組人數(shù)比例各占總?cè)藬?shù)的27％，高分與低分指總分的高低)，被稱為鑒別度指數(shù)，記為D。計(jì)算公式為：

D=P_H-P_L

式中，D代表項(xiàng)目鑒別度指數(shù)；P_H、P_L分別表示高分組和低分組在該項(xiàng)目上的得分率。

D值是鑒別項(xiàng)目測(cè)量有效性的指標(biāo)，D值越高，項(xiàng)目越是有效。而且，它適用于各種題分情況，不像相關(guān)法那樣每一種方法都有各自的適用條件，而各種方法之間又不能直接比較(前面的例子已經(jīng)顯示出，同樣的數(shù)據(jù)不同方法計(jì)算的結(jié)果不同)，因此在實(shí)際應(yīng)用當(dāng)中，人們常常采用高低分組法來(lái)計(jì)算項(xiàng)目的區(qū)分度。1965年，美國(guó)測(cè)驗(yàn)專家R.L.Ebel根據(jù)長(zhǎng)期經(jīng)驗(yàn)提出用鑒別指數(shù)評(píng)價(jià)題目性能的標(biāo)準(zhǔn)如表10-2所示：

表10-2　項(xiàng)目區(qū)分度評(píng)價(jià)標(biāo)準(zhǔn)

免責(zé)聲明：以上內(nèi)容源自網(wǎng)絡(luò)，版權(quán)歸原作者所有，如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知，我們將盡快刪除相關(guān)內(nèi)容。

<progress id="no39n"></progress>