淺談標準設定的效度驗證題庫組

「效度」向來是測驗研究關注的重點,近年來效度的思維不但更加廣泛而多元,且效度證據的尋求不侷限於單一時間點,藉由持續性、多面向地蒐集效度證據,能使得測驗結果更具說服力(林世華、謝佩蓉、謝進昌,2012)。對標準設定而言,效度強調的是切點分數的意義以及以此為基礎所作決策的影響。所謂切點分數的意義可以視為此切點分數是否具有準確性,即是否具一定的分類精熟或未精熟者的準確性。如何設定適當的通過標準,是標準設定成員的重大社會責任及義務。若是通過的切點分數設定過高,會造成部分具有足夠知識、技能或有能力的考生無法通過測驗,此種分類稱為「偽陰性」(false negative),即假性的不通過;但若切點分數過低,則將造成實際上缺乏知識、技能且無能力的考生通過測驗而取得執業資格,此分類則稱為「偽陽性」(false positive),即假性的通過。因此,驗證標準設定所產生的切點分數之適當性便有其重要性。

國中教育會考(以下簡稱教育會考)目的在於國中畢業生之學力監控,因此採標準參照模式,成績分為「精熟」(A)、「基礎」(B)及「待加強」(C)3個等級,透過標準設定制訂各等級的切點分數(cut scores),將考生的實際測驗表現與切點分數相較便可知考生的成績等級。透過各等級表現描述(performance level description, PLD),提供考生的回饋不再只是數字,而是呈現考生能力表現特徵訊息,讓考生更具體了解自身的能力或學習成就程度。然而,自推動十二年國民基本教育以來,全國各就學區均採計教育會考成績作為免試超額比序參考,教育會考各科能力等級設定之有效性與公平性更受到大眾關注。

對於標準設定結果之評估,美國的教育與心理測驗標準(Standards for Educational and Psychological Testing, American Educational Research Association, AERA, APA, & NCME, 1999, 2014)先後均提出許多指引,其內涵強調如標準設定技術的理論性、執行的適切性、成員組成代表性及判定結果的一致性等等,為標準設定實務研究提供許多重要的參考依據。後續,Kane(1994, 2001)也提出較全面性的標準設定評估的證據架構,其精神不但依循美國的教育與心理測驗標準,且同為國內外知名研究者所採納應用(如:吳宜芳、鄒慧英、林娟如,2010;吳毓瑩等人,2009;謝進昌等人,2011;Cizek, Bunch, & Koons, 2004;Hambleton,  2001)。其下分別包含效度的程序證據(procedural evidence for validity)、效度的內部證據(internal evidence for validity),及效度的外部證據(external evidence for validity)等3個面向。程序證據強調的是整個標準設定過程的適當性及過程執行的品質;內部證據強調標準設定成員在運用標準設定技術時,其結果的穩定性及一致性;而外部證據強調的則是設定的切點分數與考生能力間的相關性或不同設定方法間的一致性,茲逐一陳述之。

一、效度的程序證據

Kane所提出效度的程序證據,強調的是整個標準設定過程的適當性及過程執行的品質,其內容不僅限於應遵循理論基礎與容易解釋結果的實用性質(practicability)來選擇欲使用的標準設定技術,更廣至於設定過程前端表現標準描述的形成,或後端標準設定成員的選擇、訓練、回饋及資料分析的嚴謹性……等,甚至研究者針對標準設定結果對於社會觀感、財政支出影響的考量……等,都是作為評估程序效度的證據。主要可從3個面向來驗證:

(一)所有標準設定的步驟是否均以正確的定義和程序來執行?

(二)設定成員們於標準設定過程中是否覺得非受脅迫並對設定結果有信心?

(三)是否完整記錄標準設定的所有過程?

二、效度的內部證據

效度的內部證據強調標準設定成員在運用標準設定技術時,其結果的穩定性及一致性。根據研究者運用的技術差異,所提供的內部效度證據亦會有所不同。主要可從4個面向來驗證:

(一)標準設定方法內是否有一致性的證據?

(二)標準設定成員每回合設定是否有所變動?

(三)標準設定成員的設定是否與實際的試題難度一致?

(四)標準設定成員間設定結果的一致性。

三、效度的外部證據

然而,單就方法內的探討,無法將結果作有效推論,因此效度的外部證據強調使用其他外部資訊或與其他方法比較……等效標資料,以提升精熟或未精熟者分類的預測效果,判定準則主要可分為兩大類:

(一)方法間的一致性(consistency between method):強調同一研究中運用不同的標準設定方法,期望能產生相似的結果。

(二)對照其他外部資訊(comparisons to other information):方法間的比較僅能提供不同標準設定方法間適當或不適當的結論,無法說明產生不同結果時,何者具有較佳效度,因此需對照其他外部資訊,如考生於其他相似測驗表現或相關成就資訊等,以提供有效的效標資料,期能確立分類的外在推論與預測效果。

Kane(1994, 2001)提出評估標準設定效度的3項準則,可發現除程序證據之外,部分內部證據與外部證據皆透過是否具有一致性來加以驗證,如:內部證據中標準設定成員內、成員間的一致性,或是外部證據中不同標準設定方法間的一致性等等。然而,一致性在概念上較接近於信度而非效度,但Kane為何將之視為效度證據呢?Kane(1982)曾建議將類推性理論(Generalizability theory)所得到的變異成份分析(analysis of variance components)結果作為構念效度之證據,且將類推性係數視為效度係數(validity coefficient),此構想與將類推性係數視為信度估計值似乎不同,是否表示在Kane的模式中,效度與信度沒有區別?筆者則是認為信度考驗本來是效度考驗的一部分,嚴格來說,內容效度、效標關聯效度,或是信度與試題鑑別力分析,都是效度考驗的一部分,只要考驗結果與理論上之預期相符,均可提供效度之部分證據。故筆者認為Kane將一致性的考驗也作為標準設定效度驗證的證據之一,相當地合理。

綜上所述,效度證據的尋求應是多面向地蒐集,方能使得測驗結果更具說服力。本中心亦積極地依據Kane提出的3個層面評估準則,驗證教育會考各科目標準設定的效度,供社會大眾檢驗。

參考文獻

  1. 吳宜芳、鄒慧英、林娟如(2010)。標準設定效度驗證之探討 — 以大型數學學習成就評量為例。測驗學刊57(1),1-27。
  2. 吳毓瑩、陳彥名、張郁雯、陳淑惠、何東憲、林俊吉(2009)。以常態混組模型討論書籤標準設定法對英語聽讀基本能力標準設定有效性之幅合證據。教育心理學報,41(1),69-90。
  3. 林世華、謝佩蓉、謝進昌(2012)。表現標準設定之擴大參與:教學現場效度證據。教育研究與發展期刊,8(4),1-18。
  4. 謝進昌、謝明娟、林世華、林陳涌、陳清溪、謝佩蓉(2011)。大型資料庫國小四年級自然科學習成就評量標準設定結果之效度評估。教育科學研究期刊56(1),1-32。
  5. American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (1999). Standards for educational and psychological testing. Washington, DC: American Psychological Association.
  6. American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. Washington, DC: American Psychological Association.
  7. Cizek, G. J., Bunch, M. B., & Koons, H. (2004). Setting performance standards: Contemporary methods. Educational Measurement: Issues and Practice, 23(4), 31-50.
  8. Hambleton, R. K. (2001). Setting performance standards on educational assessments and criteria for evaluating the process. In G. J. Cizek (Ed.), Standard setting: Concepts, methods, and perspectives (pp. 89-116). Mahwah, NJ: Erlbaum.
  9. Kane, M. T. (1982). A sampling model for validity. Applied Psychological Measurement, 6(2), 126-160.
  10. Kane, M. T. (1994). Validating the performance standards associated with passing scores. Review of Educational Research, 64(3), 425-461.
  11. Kane, M. T. (2001). So much remains the same: Conception and status of validation in setting standards. In G. J. Cizek (Ed.). Standard setting: Concepts, methods, and perspectives (pp. 53-88). Mahwah, NJ: Erlbaum.