Estudio de la fiabilidad de test multirrespuesta con el método de Monte Carlo

  1. José Calaf Chica 1
  2. María José García Tárrago 1
  1. 1 Universidad de Burgos
    info

    Universidad de Burgos

    Burgos, España

    ROR https://ror.org/049da5t36

Revista:
Revista de educación

ISSN: 0034-8082

Año de publicación: 2021

Número: 392

Páginas: 63-96

Tipo: Artículo

DOI: 10.4438/1988-592X-RE-2021-392-479 DIALNET GOOGLE SCHOLAR lock_openAcceso abierto editor

Otras publicaciones en: Revista de educación

Objetivos de desarrollo sostenible

Resumen

Durante gran parte del siglo XX se ha escrito mucho sobre la fiabilidad de los test multirrespuesta como método para la evaluación de contenidos. En concreto son muchos los estudios teóricos y empíricos que buscan enfrentar los distintos sistemas de puntuación existentes. En esta investigación se ha diseñado un algoritmo que genera estudiantes virtuales con los siguientes atributos: conocimiento real, nivel de cautela y conocimiento erróneo. El primer parámetro establece la probabilidad que tiene el alumno de conocer la veracidad o falsedad de cada opción de respuesta del test. El nivel de cautela refleja la probabilidad de responder a una cuestión desconocida. Finalmente, el conocimiento erróneo es aquel conocimiento falsamente asimilado como cierto. El algoritmo también tiene en cuenta parámetros de configuración del test como el número de preguntas, el número de opciones de respuesta por pregunta y el sistema de puntuación establecido. El algoritmo lanza test a los individuos virtuales analizando la desviación generada entre el conocimiento real y el conocimiento estimado (la puntuación alcanzada en el test). En este estudio se confrontaron los sistemas de puntuación más comúnmente utilizados (marcado positivo, marcado negativo, test de elección libre y método de la respuesta doble) para comprobar la fiabilidad de cada uno de ellos. Para la validación del algoritmo, se comparó con un modelo analítico probabilístico. De los resultados obtenidos, se observó que la existencia o no de conocimiento erróneo generaba una importante alteración en la fiabilidad de los test más aceptados por la comunidad educativa (los test de marcado negativo). Ante la imposibilidad de comprobar la existencia de conocimiento erróneo en los individuos a través de un test, es decisión del evaluador castigar su presencia con el uso del marcado negativo, o buscar una estimación más real del conocimiento real a través del marcado positivo.

Referencias bibliográficas

  • Akeroyd, Michael. 1982. “Progress in Multiple Choice Scoring Methods, 1977/81.” Journal of Further and Higher Education 6(3):86–90.
  • Betts, Lucy R., Tracey J. Elder, James Hartley, and M. Trueman. 2009. “Does Correction for Guessing Reduce Students’ Performance on Multiple-Choice Examinations? Yes? No? Sometimes?” Assessment and Evaluation in Higher Education.
  • Budescu, David, and Maya Bar-Hillel. 1993. “To Guess or Not to Guess: A Decision-Theoretic View of Formula Scoring.” Journal of Educational Measurement.
  • Burton, Richard F. 2004. “Multiple Choice and True/False Tests: Reliability Measures and Some Implications of Negative Marking.” Assessment and Evaluation in Higher Education.
  • Burton, Richard F. 2005. “Multiple-Choice and True/False Tests: Myths and Misapprehensions.” Assessment and Evaluation in Higher Education.
  • Bush, Martin. 2015. “Reducing the Need for Guesswork in Multiple- Choice Tests.” Assessment and Evaluation in Higher Education.
  • Espinosa, María Paz, and Javier Gardeazabal. 2010. “Optimal Correction for Guessing in Multiple-Choice Tests.” Journal of Mathematical Psychology.
  • Hammond, E. J., A. K. McIndoe, A. J. Sansome, and P. M. Spargo. 1998. “Multiple-Choice Examinations: Adopting an Evidence-Based Approach to Exam Technique.” Anaesthesia.
  • Hsu, Fu Yuan, Hahn Ming Lee, Tao Hsing Chang, and Yao Ting Sung. 2018. “Automated Estimation of Item Difficulty for Multiple-Choice Tests: An Application of Word Embedding Techniques.” Information Processing and Management.
  • Jennings, Sylvia, and Martin Bush. 2006. “A Comparison of Conventional and Liberal (Free-Choice) Multiple-Choice Tests.” Practical Assessment, Research and Evaluation.
  • Kurz, Terri Barber. 1999. “A Review of Scoring Algorithms for Multiple- Choice Tests.” Annual Meeting of the Southwest Educational Research Association (San Antonio, TX, January 21-23, 1999.
  • Lin, Chih Kai. 2018. “Effects of Removing Responses With Likely Random Guessing Under Rasch Measurement on a Multiple-Choice Language Proficiency Test.” Language Assessment Quarterly.
  • Moon, Jung Aa, Madeleine Keehner, and Irvin R. Katz. 2020. “Test Takers’ Response Tendencies in Alternative Item Formats: A Cognitive Science Approach.” Educational Assessment.
  • Papenberg, Martin, Birk Diedenhofen, and Jochen Musch. 2019. “An Experimental Validation of Sequential Multiple-Choice Tests.” Journal of Experimental Education.
  • Parkes, Jay, and Dawn Zimmaro. 2016. Learning and Assessing with Multiple-Choice Questions in College Classrooms.
  • Riener, Gerhard, and Valentin Wagner. 2017. “Shying Away from Demanding Tasks? Experimental Evidence on Gender Differences in Answering Multiple-Choice Questions.” Economics of Education Review.
  • Slepkov, Aaron D., and Alan T. K. Godfrey. 2019. “Partial Credit in Answer- Until-Correct Multiple-Choice Tests Deployed in a Classroom Setting.” Applied Measurement in Education.
  • Warwick, Jon, Martin Bush, and Sylvia Jennings. 2010. “Analysis and Evaluation of Liberal (Free-Choice) Multiple-Choice Tests.” Innovation in Teaching and Learning in Information and Computer Sciences 9(2):1–12.