نوع مقاله : مقاله پژوهشی
نویسندگان
1 دانشجوی دکتری سنجش و اندازه گیری دانشگاه علامه طباطبایی
2 استاد گروه سنجش و اندازه گیری، دانشگاه علامه طباطبائی، تهران، ایران
3 استاد گروه آموزشی روش ها و برنامه ریزی آموزشی و درسی، دانشگاه تهران، تهران، ایران
4 استاد گروه سنجش و اندازه گیری، دانشگاه علامه طباطبایی، تهران، ایران
5 دانشیار گروه آموزشی روش ها و برنامه ریزی آموزشی و درسی، دانشگاه تهران، تهران، ایران
چکیده
خطای استاندارد اندازه گیری شرطی که براوردی از خطای استاندارد اندازه گیری در سطوح مختلف نمرات است، یکی از شاخصه های مهم دقت اندازه گیری است که می تواند به کاربران آزمون در تفسیر مناسب نمرات گزارش شده کمک کند. هدف این پژوهش بررسی ثبات خطای استاندارد اندازهگیری شرطی در سه روش تبدیل نمره آرک سینوس، تثبیت واریانس کلی و مکعب در قالبهای مختلف آزمون (چندگزینهای، تشریحی، و ترکیبی) بود. دادههای این مطالعه از یک آزمون استاندارد با ترکیبی از سؤالات چندگزینهای و تشریحی استخراج شد و دو شبهآزمون بر اساس قالبهای جداگانه سؤالات طراحی گردید. نتایج نشان داد که ثبات خطای شرطی به قالب سؤالات و ویژگیهای ساختاری آزمون وابسته است. روش آرک سینوس در آزمونهای چندگزینهای باثباتترین خطای شرطی را ارائه داد و در آزمون ترکیبی نیز عملکرد مناسبی داشت. روش تثبیت واریانس کلی در آزمون ترکیبی بهترین عملکرد را نشان داد، بهگونهای که ضمن داشتن باثباتترین خطای شرطی، کمترین مقدار خطا را نیز در طول مقیاس توانایی ارائه کرد. همچنین، روش مکعب در آزمون ترکیبی عملکردی باثباتتری داشت. نتایج این پژوهش نشان میدهد که انتخاب روش تبدیل باید بر اساس ویژگیهای آزمون و اهداف ارزیابی انجام شود.
کلیدواژهها
عنوان مقاله [English]
The Impact of Test Format on the Stability of Conditional Errors in Various Scaling Methods: A Case Study of Final Exams in the Second Stage of Secondary Education
نویسندگان [English]
- Seiedali jafari 1
- jalil Younesi 2
- ebrahim khodaie 3
- noorali farrokhi 4
- ali moghadamzadeh 5
1 Ph.D. Candidate, Faculty of Psychology and Education, University of Allameh Tabataba, Tehran, Iran.
2 ATU
3 Faculty of Psychology and Education, University of Tehran, Tehran, Iran
4 Allameh Tabataba'i University, Tehran, Iran.
5 Faculty of Psychology and Education, University of Tehran, Tehran, Iran
چکیده [English]
Conditional Standard Error of Measurement (CSEM), which estimates the standard error of measurement at different score levels, is a critical index for measurement precision and aids in interpreting reported test scores. This study aimed to examine the stability of CSEM using three scaling methods—arcsine score transformation, general variance stabilization (gvs), and cubic transformation—across different test formats (multiple-choice, essay, and mixed). Data were drawn from a standardized test combining multiple-choice and essay questions, with two pseudo-tests designed based on separate formats. Results showed that the stability of CSEM depends on test format and structural features. The arcsine method was most stable for multiple-choice tests and performed well in mixed-format tests. The general variance stabilization (gvs) method excelled in mixed tests, providing the most stable CSEM with the least error across the ability scale. The cubic method also demonstrated better stability in mixed tests. These findings highlight the need to select scaling methods based on test characteristics and evaluation goals.
کلیدواژهها [English]
- Scaling
- Conditional Standard Error of Measurement (CSEM)
- Arcsine Transformation
- Variance Stabilization Transformation
- Cubic Transformation