نوع مقاله : مقاله پژوهشی
نویسندگان
1 دانشجوی دکتری سنجش و اندازهگیری دانشگاه علامهطباطبائی
2 دانشیار گروه سنجش و اندازه گیری دانشگاه علامه طباطبائی
3 استادیار سازمان سنجش آموزش کشور
چکیده
زمینه: یکی از چالشهای اساسی گذر از آزمونهای مداد – کاغذی به انطباقی کامپیوتری عادلانه بودن است که ارزیابی آن در چارچوب کارکرد افتراقی ضرورتی اجتنابناپذیر میباشد. هدف: هدف مطالعه حاضر بررسی کارکرد افتراقی، ارزیابی عوامل مداخلهگر در میزان آشکارسازی و معرفی روش بهینه مطالعه کارکرد افتراقی در سنجش انطباقی کامپیوتری بود. روش: با توجه به مسئله پژوهش از روش تجربی استفاده شد. گردآوری دادهها و دستکاری متغیرها با استفاده از روش شبیهسازی صورت گرفت. پاسخهای گروه نمونه 1000 نفری (گروه مرجع و کانونی با حجم یکسان 500 نفری) به بانک 55 سؤالی دوارزشی براساس مدل لجستیک سهپارامتری در 20 تکرار شبیه سازی شد. 15 سؤال بانک از نظر نوع و اندازه کارکرد افتراقی دستکاری شدند و اثر آزمون براساس تفاوت میانگین توانایی گروههای مقایسه تعیین گردید. آزمون انطباقی کامپیوتری 30 سؤالی با نرمافزار Firestar اجرا شد. تحلیل کارکرد افتراقی با روش رگرسیون لجستیک و آزمون نسبت درستنمایی صورت گرفت و روشها براساس توان و خطای نوع اول مقایسه شدند. یافتهها: میزان خطای نوع اول روش آزمون نسبت درستنمایی کمتر از رگرسیون لجستیک بود. توان هر دو روش متاثر از نوع، مقدار کارکرد افتراقی و اثر آزمون بود. روش آزمون نسبت درستنمایی در شناسایی کارکرد افتراقی یکنواخت در هر دو موقعیت اثر و بدون اثر نسبت به روش رگرسیون لجستیک توان بیشتری داشته است و با افزایش شدت کارکرد افتراقی توان نیز افزایش یافته است. در ارزیابی کارکرد افتراقی غیریکنواخت تفاوتی بین روشها مشاهده نشد و هر دو روش توان کمی داشتند. نتیجهگیری: با توجه به توان و میزان خطای نوع اول، روش آزمون نسبت درستنمایی رویکرد مطلوب در بررسی کارکرد افتراقی یکنواخت است، در حالی که ارزیابی کارکرد افتراقی غیریکنواخت مستلزم مطالعات تکمیلی میباشد.
کلیدواژهها
عنوان مقاله [English]
Assessing the optimal method of detecting Differential Item Functioning in Computerized Adaptive Testing
نویسندگان [English]
- negar sharifi 1
- mohammad falsafi 2
- noorali farokhi 2
- ehsan jamali 3
1 ATU
2 ATU
3 sanjesh
چکیده [English]
Background: Test fairness is one of the main challenges in transition from paper- pencil towards computerized adaptive testing (CAT). Aim: This study was aimed at investigating differential item function (DIF), assessing intervening factors in clarifying DIF and suggesting the optimal method for DIF in computerized adaptive testing. Method: The empirical method was applied based on the nature of the study area. Data gathering procedure and manipulating the variables were done using simulation method. The responses of 1000 examinees (reference and focal group with equal 500 numbers) to item bank of 55 dichotomous items were simulated based on 3-parameter logistic model with 20 iterations. Fifteen items were manipulated in terms of DIF type and magnitude and test impact was evaluated based on mean difference of comparison groups. Computerized adaptive test with 30 items was administered via Firestar software package. Analysis was done by logistic regression (LR) and item response theory-likelihood ratio test (IRT-LRT) and the methods were compared based on their power and type I error rate. Results: Type I error rate of likelihood ratio test was less than logistic regression. The power of the methods was influenced by type, magnitude of DIF and test impact. Comparing with logistic regression, Item response theory-likelihood ratio test had more power in detecting uniform DIF for the impact and no-impact conditions and it showed more power by increasing the magnitude of DIF. The two methods showed no difference in assessing non-uniform DIF and both of them were poor. Conclusion: Given the power and type I error rate, likelihood ratio test is an optimal approach in detecting uniform DIF. However, assessing non-uniform DIF requires further investigation.
کلیدواژهها [English]
- Computerized Adaptive Test
- Differential Item Function
- Item response theory-likelihood ratio test
- Logistic regression