نوع مقاله : مقاله پژوهشی

نویسندگان

1 گروه سنجش واندازه گیری دانشگاه علامه طباطبایی

2 دانشیار گروه سنجش واندازه گیری دانشگاه علامه طباطبائی، تهران، ایران

3 استادیار گروه سنجش واندازه گیری دانشگاه علامه طباطبائی، تهران، ایران

چکیده

شناسایی عواقب تخطی از مفروضه‌های مدل‌های اندازه‌گیری از دغدغه‌های اصلی در حوزه روانسنجی است، هدف پژوهش حاضر، مطالعه نقش نقض مفروضه تک بعدی بودن در خطای همترازسازی در نظریه کلاسیک و نظریه سؤال پاسخ بود. روش پژوهش آزمایشی و طرح آن طرح عاملی 3×3 بود. جامعه آماری شامل کلیه داوطلبان گروه ریاضی و فیزیک کنکور سراسری سال‌های 1396 و 1397 بود. گروه نمونه عبارت از 5000 نفر از داوطلبان بود که به شیوه نمونه‌گیری تصادفی انتخاب شدند. آزمون مورد همترازسازی آزمون ریاضی (55 سؤالی) کنکور سراسری بود که با استفاده از آن سه نوع داده 20 سؤالی با ساختار متفاوت تک بعدی، دو بعدی و سه‌بعدی تشکیل شد. داده‌ها با استفاده از سه روش همصدک، نمره واقعی و نمره مشاهده شده همتراز شدند. برای ارزیابی اثرات بعدیت و روش‌های همترازسازی از آماره‌های خطای استاندارد همترازسازی، سوگیری و خطای جذر میانگین مربعات استفاده شد و برای تعیین آماره‌های خطا، نتایج همترازسازی در هر سه مجموعه داده و سه روش همترازسازی در نمونه‎های مختلف 20 بار تکرار شد. نتایج تجزیه و تحلیل داده‌ها نشان داد که تخطی از بعدیت، خطای استاندارد همترازسازی، سوگیری نتایج همترازسازی و میزان خطای جذر میانگین مربعات را افزایش می‌دهد. سوگیری نتایج همترازسازی در روش‌های نظریه کلاسیک بیشتر از روش‌های نظریه سؤال پاسخ است و تأثیر تخطی از بعدیت در خطاهای همترازسازی در مدل‌های نظریه کلاسیک و نظریه سؤال پاسخ تفاوتی نداشت.

کلیدواژه‌ها

عنوان مقاله [English]

The Role of Test Dimensionality Violation in Equating Errors of IRT and Classical Theory Models

نویسندگان [English]

  • Somayeh Bahmanabadi 1
  • Mohammad reza Falsafinejad 2
  • noorali farrokhi 2
  • asghar minaei 3

1 Allame Tabataba'e university

2 Associate Professor, Department of Measurement and Assessment, Allameh Tabataba'i University, Tehran, Iran

3 Assistant Professor, Department of assessment and Measurement, Allameh Tabataba'i University, Tehran, Iran

چکیده [English]

Identification of the consequences of violations of the assumptions of measurement models is a major concern in the field of psychometrics. The purpose of the present study was to investigating the role of test dimensionality violation in equating errors of IRT and classical theory models. Research method was experimental and a 3 × 3 factorial design was used. The study population consisted of all the Mathematical and Technical Sciences Entrance Examiners in 2017 and 2018. The sample group consisted of 5000 examiners who were selected by random sampling. Mathematic test (55 items) was used for equating that three different types of data structure including one-dimensional, two- dimensional and three-dimensional data was generated from it. Data was equated with three equating methods including equipercentile method, true score and observed score equating method. Equating standard errors, bias and root mean square error were used to evaluate the effects of independent variables. To determine the error statistics, the equating results in all three datasets and the three equating methods were repeated 20 times in different samples. Data analysis showed that violation of dimensionality increases equating standard error, bias of equating results and the root mean square error. The bias of equating results in classical methods is more than the IRT methods. The effect of dimensionality violation on equating errors was not different between the classical theory and IRT models.

کلیدواژه‌ها [English]

  • violations of unidimensionality
  • equating
  • equating standard error
  • bias
  • root mean square error
شاطریان محمدی، فاطمه. (1382). مقایسه سه روش همتراز سازی همصدک هموار نشده نمره مشاهده شدهIRT  و نمره واقعیIRT  در طرح گروه های نامعادل با سوالات لنکر (پایان نامه کارشناسی ارشد). دانشکده روانشناسی و علوم تربیتی. دانشگاه علامه طباطبایی. تهران.
مقدم زاده، علی. (1391). روش بهینه همترازسازی با توجه به ویژگی های بومی آزمونهای ملی ایران: مورد مطالعه آزمون تولیمو و آزمون‌های جامع کنکورهای آزمایشی سازمان سنجش آموزش کشور (رساله دکترا). دانشکده روانشناسی و علوم تربیتی. دانشگاه علامه طباطبایی. تهران.
رضوانی فر، شیرین. (1391). همترازسازی نمرات دروس ریاضی و فیزیک رشته علوم تجربی آزمون کنکور سراسری سال‌های 1388 و 1389 براساس نظریه‌های کلاسیک و جدید اندازه‌گیری (پایان نامه کارشناسی ارشد). دانشکده روانشناسی و علوم تربیتی. دانشگاه علامه طباطبایی. تهران.
واشقانی فراهانی، مریم. (1380). کاربرد روش همتراز سازی همصدک در معادل سازی نمرات آزمون های ورودی دانشگاهها (کنکور ورودی سال 1387) (پایان نامه ارشناسی ارشد). دانشکده روانشناسی و علوم تربیتی. دانشگاه علامه طباطبایی، تهران.
Ackerman, T. A., Gierl, M. J., & Walker, C. M. (2003). Using multidimensional item response theory to evaluate educational and psychological tests. Educational Measurement: Issues and Practice, 22(3), 37-51.  https://doi.org/10.1111/j.1745-3992.2003.tb00136.x
Andrews, B. J. (2011). Assessing first-and second-order equity for the common-item nonequivalent groups design using multidimensional IRT [Doctoral dissertation, University of Iowa].
Arıkan, Ç. A., & Gelbal, S. (2018). A Comparison of Traditional and Kernel Equating Methods. International Journal of Assessment Tools in Education5(3), 417-427. DOI:10.21449/ijate.409826
Brossman, B. G. (2010).Observed score and true score equating procedures for multidimensional item response theory [Doctoral dissertation, University of Iowa].
Brossman, B. G., & Lee, W. C. (2013). Observed score and true score equating procedures for multidimensional item response theory. Applied Psychological Measurement37(6), 460-481. DOI:10.1177/0146621613484083
Camilli, G., Wang, M. M., & Fesq, J. (1995). The effects of dimensionality on equating the Law School Admission Test. Journal of Educational Measurement, 32(1), 79-96.
Champlain, A. F. (1996). The Effect of Multidimensionality on IRT True‐Score Equating for Subgroups of Examinees. Journal of Educational Measurement33(2), 181-201.  https://doi.org/10.1111/j.1745-3984.1996.tb00488.x
Chen, H. (2012). A Comparison Between Linear IRT Observed‐Score Equating and Levine Observed‐Score Equating Under the Generalized Kernel Equating Framework. Journal of Educational Measurement, 49(3), 269-284.  https://doi.org/10.1111/j.1745-3984.2012.00175.x
Chen, J. (2014). Model selection for IRT equating of testlet-based tests in the random groups design [Doctoral dissertation, University of Iowa].
Cook, L. L., Dorans, N. J., Eignor, D. R., & Petersen, N. S. (1985). An Assessment of the Relationship Between the Assumption of Unidimensionality and the Quality of IRT True-Score Equating 1, 2, 3. ETS Research Report Series, 1985(2), i-68. http://dx.doi.org/10.1002/j.2330-8516.1985.tb00115.x
Dorans, N. J., & Kingston, N. M. (1985). The effects of violations of unidimensionality on the estimation of item and ability parameters and on item response theory equating of the GRE verbal scale. Journal of Educational Measurement22(4), 249-262. https://doi.org/10.1111/j.1745-3984.1985.tb01062.x
Dorans, N.J. & Holland, P.W. (2000). Population invariance and equitability of tests: Basic theory and the linear case. Journal of Educational Measurement, 37, 281–306.  https://doi.org/10.1111/j.1745-3984.2000.tb01088.x
González, J., & Wiberg, M. (2017). Applying test equating methods. New York: Springer. doi, 10, 978-3.
Han, T., Kolen, M., & Pohlmann, J. (1997). A comparison among IRT true-and observed-score equatings and traditional equipercentile equating. Applied Measurement in Education, 10(2), 105-121. DOI: 10.1207/s15324818ame1002_1
Hanson, B., & Zeng, L. (2004). PIE: A computer program for IRT equating. (Windows Console Version, Revised by Z. Cui, May 20, 2004) [Manual]. Unpublished manuscript, College of Education, University of Iowa, Iowa City, Iowa.
Hirsch, T. M. (1989). Multidimensional equating. Journal of Educational Measurement, 26(4), 337-349. https://doi.org/10.1111/j.1745-3984.1989.tb00338.x
Kim, K. Y., Lim, E., & Lee, W. C. (2019). A Comparison of the Relative Performance of Four IRT Models on Equating Passage-Based Tests. International Journal of Testing, 19(3), 248-269. https://doi.org/10.1080/15305058.2018.1530239
Kim, S. Y. (2018). Simple structure MIRT equating for multidimensional tests [Doctoral dissertation, University of Lowa].
Kim, S., Cole, K. L., & Mwavita, M. (2018). FIPC Linking Across Multidimensional Test Forms: Effects of Confounding Difficulty within Dimensions. International Journal of Testing18(4), 323-345. https://doi.org/10.1504/IJQRE.2019.100168
Kline, R. B. (2011). Principles and practice of structural equation modeling, (3rd Ed). New York, NY: Guilford.
Kolen, M. J., & Brennan, R. L. (2004). Test equating, scaling, and linking. New York: Springer-Verlag.
Lee, E, Lee, W.C., Brennan, R. L. (2014). Equating Multidimensional Tests under a Random Groups Design: A Comparison of Various Equating Procedures, Center for Advanced Studies in Measurement and Assessment, CASMA Research Report.
Li, Y. H., & Lissitz, R. W. (2000). An evaluation of the accuracy of multidimensional IRT linking. Applied Psychological Measurement24(2), 115-138. https://doi.org/10.1177/01466216000242002
Li, Y., Jiao, H., & Lissitz, R. W. (2012). Applying multidimensional item response theory models in validating test dimensionality: An example of K–12 large-scale science assessment. Journal of Applied Testing Technology13(2).
Lim, E. (2016). Subscore equating with the random groups design [Doctoral dissertation, University of Iowa].
Lim, E; Lee, w. c. (2016). Subscore Equating and Reporting. Center for Advanced Studies in Measurement and Assessment, CASMA Research Report.
Lu, R., & Guo, H. (2018). A Simulation Study to Compare Nonequivalent Groups With Anchor Test Equating and Pseudo-Equivalent Group Linking. ETS Research Report Series, 2018(1), 1-16.  https://doi.org/10.1002/ets2.12196
Meng, Y. (2012). Comparison of Kernel Equating and Item Response Theory Equating Methods. ProQuest LLC. 789 East Eisenhower Parkway, PO Box 1346, Ann Arbor, MI 48106.
Moghadamzadeh, A. (2013). Optimal Smoothing Method of Data in Test Equating: The Case of TOLIMO and Comprehensive Trial Tests of Iran Educational Testing Organization. [Doctoral Dissertation, Allameh Tabataba'i University]. [In Persian]
Oshima, T. C., Davey, T. C., & Lee, K. (2000). Multidimensional linking: Four practical approaches. Journal of Educational Measurement, 37, 357-373. https://doi.org/10.1111/j.1745-3984.2000.tb01092.x
Peterson, J. L. (2014). Multidimensional item response theory observed score equating methods for mixed-format tests [Doctoral dissertation, University of Iowa].
Ricker, K. L. (2007). The Consequence of Multidimensionality IRT Equating Outcomes Using a Common-Items Nonequivalent Groups Design [Doctoral dissertation, university of Alberta].
Rizopoulos, D. (2006). ltm: An R package for latent variable modeling and item response theory analyses. Journal of statistical software, 17(5), 1-25.  https://doi.org/10.18637/jss.v017.i05
 Rizvanifar, Shirin. (2012). Equating of the scores of mathematics and physics courses in the field of experimental sciences in the national entrance exams based on classical and new measurement theories. [Master Dissertation, Allameh Tabataba'i University]. [In Persian]
Seo, D. G., & Weiss, D. J. (2015). Best design for multidimensional computerized adaptive testing with the bifactor model. Educational and Psychological Measurement75(6), 954-978. https://doi.org/10.1177/0013164415575147
Shaterian Mohammadi, F. Comparison of three unsmoothed percentile equating of the observed and True score IRT methods in unequal group design with anchor questions. [Master Dissertation, Allameh Tabataba'i University]. [In Persian]
Shin, M. (2015). An Investigation of Subtest Score Equating Methods under Classical Test Theory and Item Response Theory Frameworks [Doctoral dissertation, University of Massachusetts].
Simon, M. K. (2008). Comparison of concurrent and separate multidimensional IRT linking of item parameters [Doctoral Dissertation, University of Minnesota].
Spence, P. D. (1996). The effect of multidimensionality on unidimensional equating with item response theory [Doctoral dissertation, University of Florida].
Topczewski, A. M. (2013). Effect of violating unidimensional item response theory vertical scaling assumptions on developmental score scales [Doctoral dissertation, University of Iowa].
Vashghani Farahani, M. (2010). The application of the equipercentile method in equating university entrance exam scores (2017 entrance exam). [Master Dissertation, Allameh Tabataba'i University]. [In Persian]
Zhang, B., Stone, C. A. (2008). Evaluating Item Fit for Multidimensional Item Response Models, Educational and Psychological Measurement, 68(2), 181-196. DOI:10.1177/0013164407301547
Zhang, O. (2012). Observed score and true score equating for multidimensional item response theory under nonequivalent group anchor test design [Doctoral Dissertation, University of Florida].