Desarrollo de un algoritmo en Python para la simulación y análisis de fiabilidad de los test multirrespuesta

María José García Tárrago

doi:10.20868/ABE.2020.2.4461

Desarrollo de un algoritmo en Python para la simulación y análisis de fiabilidad de los test multirrespuesta

María José García Tárrago

Revista:

Advances in Building Education

ISSN: 2530-7940

Año de publicación: 2020

Título del ejemplar: mayo - agosto

Volumen: 4

Número: 2

Páginas: 20-33

Tipo: Artículo

DOI: 10.20868/ABE.2020.2.4461 DIALNET GOOGLE SCHOLAR Dialnet editor

Otras publicaciones en: Advances in Building Education

Objetivos de desarrollo sostenible

Resumen

Existe gran número de publicaciones en relación con la fiabilidad de los test multi-respuesta para la evaluación del alumnado en la educación superior. Número de opciones por pregunta, sistemas de puntuación (marcado positivo o negativo), puntuación del conocimiento parcial o cantidad total de preguntas… La combinación de todos estos parámetros es una muestra de la variedad de configuraciones que pueden llegar a establecerse al diseñar un test. ¿Existe algún modelo o configuración óptima? Durante años, los investigadores en innovación educativa han intentado responder a esta cuestión haciendo uso del cálculo de probabilidades y distintas evaluaciones empíricas. En esta investigación se ha desarrollado un algoritmo basado en código Python con la finalidad de generar una serie de estudiantes hipotéticos con características y habilidades específicas (conocimiento real, nivel de cautela…). Un alto nivel de conocimientos implicaría una alta probabilidad de saber si una de las opciones de respuesta a una cuestión es cierta o no. Un exceso en el nivel de cautela de un alumno estaría relacionado con el nivel de probabilidad que lleva al alumno a arriesgarse a responder a una pregunta de la que no tiene por seguro su respuesta. Ello sería una medida de la capacidad de riesgo del alumno. El algoritmo lanza test a un número específico de alumnos hipotéticos analizando la desviación existente entre el conocimiento real (una característica intrínseca de cada alumno), y el conocimiento estimado por el test. Una vez desarrollado el algoritmo, se buscó validarlo con el uso de los distintos parámetros de entrada con la finalidad de observar la influencia que estos tenían en la puntuación final del test.

Referencias bibliográficas

Ebel, R. L. (1979). Essentials of Educational Measurement. Englewood Cliffs New Jersey, Prentice-Hall.
Lesage, E. & Valcke, M. & Sabbe, E. (2013). Scoring methods for Multiple Choice Assessment in Higher Education – Is it still a Matter of Number Right Scoring or Negative Marking. Studies in Educational Evaluation, vol. 39, pp. 188-193.
Burton, R.F. (2005). Multiple-choice and true/false tests: myths and misapprehensions. Assessment & Evaluation in Higher Education, vol. 30, pp. 65-72.
Burton, R.F. (2004). Multiple-choice and true/false tests: reliability measures and some implications of negative marking. Assessment & Evaluation in Higher Education, vol. 29 pp. 585-595.
Warwick, J., Bush, M. & Jennings, S. (2010). Analysis and Evaluation of Liberal (Free-Choice) Multiple-Choise Tests. Innovation in Teaching and Learning in Information and Computer Sciences, vol. 9 pp. 1-12.
Bush, M. (2001). A Multiple Choice Test that Rewards Partial Knowledge. Journal of Further and Higher Education, vol. 25 pp. 157-163.
Burton, R.F. & Miller, D.J. (1999). Statistical Modelling of multiple-choise and True/False Tests: ways of considering, and of reducing, the uncertainties attributable to guessing. Assessment & Evaluation in Higher Education, vol. 24 pp. 399-411.
Frary, R.B. (1989). Partial-Credit Scoring Methods for Multiple-Choise Tests. Applied Measurement in Education, vol. 2 pp. 79-96.

Fuente de los datos: Dialnet