نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشجوی دکتری سنجش و اندازه گیری دانشگاه علامه طباطبایی

2 استاد گروه سنجش و اندازه گیری، دانشگاه علامه طباطبائی، تهران، ایران

3 استاد گروه آموزشی روش ها و برنامه ریزی آموزشی و درسی، دانشگاه تهران، تهران، ایران

4 استاد گروه سنجش و اندازه گیری، دانشگاه علامه طباطبایی، تهران، ایران

5 دانشیار گروه آموزشی روش ها و برنامه ریزی آموزشی و درسی، دانشگاه تهران، تهران، ایران

10.22054/jem.2025.83753.3588

چکیده

خطای استاندارد اندازه گیری شرطی که براوردی از خطای استاندارد اندازه گیری در سطوح مختلف نمرات است، یکی از شاخصه های مهم دقت اندازه گیری است که می تواند به کاربران آزمون در تفسیر مناسب نمرات گزارش شده کمک کند. هدف این پژوهش بررسی ثبات خطای استاندارد اندازه‌گیری شرطی در سه روش تبدیل نمره آرک سینوس، تثبیت واریانس کلی و مکعب در قالب‌های مختلف آزمون (چندگزینه‌ای، تشریحی، و ترکیبی) بود. داده‌های این مطالعه از یک آزمون استاندارد با ترکیبی از سؤالات چندگزینه‌ای و تشریحی استخراج شد و دو شبه‌آزمون بر اساس قالب‌های جداگانه سؤالات طراحی گردید. نتایج نشان داد که ثبات خطای شرطی به قالب سؤالات و ویژگی‌های ساختاری آزمون وابسته است. روش آرک سینوس در آزمون‌های چندگزینه‌ای باثبات‌ترین خطای شرطی را ارائه داد و در آزمون ترکیبی نیز عملکرد مناسبی داشت. روش تثبیت واریانس کلی در آزمون ترکیبی بهترین عملکرد را نشان داد، به‌گونه‌ای که ضمن داشتن باثبات‌ترین خطای شرطی، کمترین مقدار خطا را نیز در طول مقیاس توانایی ارائه کرد. همچنین، روش مکعب در آزمون ترکیبی عملکردی باثبات‌تری داشت. نتایج این پژوهش نشان می‌دهد که انتخاب روش تبدیل باید بر اساس ویژگی‌های آزمون و اهداف ارزیابی انجام شود.

کلیدواژه‌ها

عنوان مقاله [English]

The Impact of Test Format on the Stability of Conditional Errors in Various Scaling Methods: A Case Study of Final Exams in the Second Stage of Secondary Education

نویسندگان [English]

  • Seiedali jafari 1
  • jalil Younesi 2
  • ebrahim khodaie 3
  • noorali farrokhi 4
  • ali moghadamzadeh 5

1 Ph.D. Candidate, Faculty of Psychology and Education, University of Allameh Tabataba, Tehran, Iran.

2 ATU

3 Faculty of Psychology and Education, University of Tehran, Tehran, Iran

4 Allameh Tabataba'i University, Tehran, Iran.

5 Faculty of Psychology and Education, University of Tehran, Tehran, Iran

چکیده [English]

Conditional Standard Error of Measurement (CSEM), which estimates the standard error of measurement at different score levels, is a critical index for measurement precision and aids in interpreting reported test scores. This study aimed to examine the stability of CSEM using three scaling methods—arcsine score transformation, general variance stabilization (gvs), and cubic transformation—across different test formats (multiple-choice, essay, and mixed). Data were drawn from a standardized test combining multiple-choice and essay questions, with two pseudo-tests designed based on separate formats. Results showed that the stability of CSEM depends on test format and structural features. The arcsine method was most stable for multiple-choice tests and performed well in mixed-format tests. The general variance stabilization (gvs) method excelled in mixed tests, providing the most stable CSEM with the least error across the ability scale. The cubic method also demonstrated better stability in mixed tests. These findings highlight the need to select scaling methods based on test characteristics and evaluation goals.

کلیدواژه‌ها [English]

  • Scaling
  • Conditional Standard Error of Measurement (CSEM)
  • Arcsine Transformation
  • Variance Stabilization Transformation
  • Cubic Transformation