¿Qué es un buen examen?

Los exámenes tienen múltiples propósitos, deben ser justos y deben ser factibles de administrar.
Un examen que se vea / sienta bien a los estudiantes no es necesariamente un buen examen; la mayoría de los estudiantes prefieren los exámenes que son fáciles de tomar (preguntas simples que se parecen mucho a los problemas de práctica). Los profesores suelen estar inclinados hacia los exámenes que son fáciles de construir (un pequeño número de preguntas profundas) o fáciles de calificar (un gran número de preguntas poco profundas de opción múltiple).

Solo puede confirmar un buen examen después de escuchar las quejas de los estudiantes (o la falta de ellas) y ver las estadísticas de calificaciones. Un examen que es bueno para un grupo de estudiantes puede ser malo para otro grupo de estudiantes.

  • Un examen debe ser “limpio”, sin fallas obvias ni ambigüedades ocultas, de lo contrario, los examinados no lo tomarán en serio y / o los puntajes pueden ser aleatorios.
  • Un examen debe cubrir un alcance bien definido y ciertas habilidades. Es importante evitar sesgos no intencionales en temas y tipos de problemas particulares. El sesgo más común es hacia el conocimiento o la comprensión del material y se aleja de las habilidades necesarias para aplicar el material, como las habilidades de resolución de problemas (a veces despectivas, denominadas habilidades de examen ).
  • Un examen debe evaluar el conocimiento y las habilidades de los alumnos, en lugar de estar familiarizado con un pequeño conjunto de problemas o patrones de práctica (de lo contrario, las calificaciones pueden depender demasiado de qué alumno no asistió a cada clase).
  • Un examen no debe ser sensible a factores irrelevantes para el alcance / habilidades (como las anécdotas contadas por el instructor en clase, las referencias culturales, el material probado por cursos que no sean requisitos previos).
  • Suponiendo que los estudiantes que toman el examen tienen diferentes niveles de competencia, el examen debe diferenciarlos. Hablando matemáticamente, la entropía en los puntajes de los exámenes (en una escala de 100 puntos, con 100 o 50 cajas) debe ser de al menos 3.5 bits, pero con suerte> 4 bits. Me sorprende lo pocos que los profesores computan y reportan la entropía (o incluso saben qué es).
  • El examen debe ser resistente a las trampas y los juegos. En particular, no es una buena idea reutilizar los mismos problemas todos los años. Los exámenes para llevar a casa tienen riesgos obvios, y no puede usar preguntas de opción múltiple sobre ellos. Permitir el uso de la electrónica durante un examen sería pedir problemas.
  • Es deseable hacer del examen una experiencia de aprendizaje.

Dado que los exámenes generalmente duran entre 1 y 2 horas, es difícil cubrir todo el alcance sin al menos algunas preguntas de opción múltiple. Pero para que las preguntas de MC funcionen bien, necesita al menos 10 de ellas (para tener la ley de grandes números de su lado). También necesitas algunas preguntas de tipo ensayo, pero son difíciles de calificar. También utilizo un tercer tipo, cálculo corto, donde las respuestas (por ejemplo, los enteros grandes) son fáciles de calificar, pero no se pueden adivinar.

Al preparar los exámenes, recojo las preguntas de examen propuestas de los asistentes técnicos, agrego un número propio y luego envío un borrador del examen con más preguntas de las necesarias a los asistentes. Los TA toman el examen con un reloj y marcan varias preguntas como malas. Las malas preguntas se eliminan y las buenas se ajustan para evitar ambigüedades.

Si alguien piensa que puede preparar un examen de alta calidad solo desde cero, se equivoca (lo mejor que puede hacer es vestir / modificar las buenas preguntas para verse diferente en la superficie).

Mucho se puede decir sobre el procesamiento de estadísticas de grado.
Para las preguntas de opción múltiple, nuestra oficina de evaluaciones produce estadísticas especiales que indican cómo las respuestas en cada pregunta se correlacionan con el desempeño general. De vez en cuando, verá una pregunta que no se correlaciona con el rendimiento general; estos merecen un examen (por lo general, son preguntas muy fáciles o muy difíciles). También ayuda a ver si la respuesta más popular a una pregunta de MC es correcta y si la respuesta correcta fue elegida por más del 50% de los estudiantes.

A continuación, se incluye una recopilación de extractos del manual “Diseño de evaluación” que escribí para el sistema de ayuda de Illuminate Education, que refleja las mejores prácticas basadas en la investigación para preguntas de examen y cada examen en su totalidad:

CADA PREGUNTA

Además de las respuestas de otros sobre el examen en su conjunto, existen mejores prácticas para cada pregunta del examen.

Contenido
Cada pregunta debe estar diseñada para medir algo específico. Si una pregunta mide demasiadas cosas, no sabrá dónde está luchando un estudiante cuando se pierde la pregunta. La pregunta también debe coincidir con el estándar de contenido (en evaluación) en términos de contenido . Los estándares de contenido más utilizados en la educación K-12 son actualmente la CCSS (Common Core State Standards Initiative). Por ejemplo , si el estándar de contenido requiere una fábula estadounidense, ¿la pregunta se relaciona con una fábula estadounidense?

Rigor
La pregunta debe coincidir con la norma en términos de rigor . Por ejemplo , si la norma requiere que los estudiantes evalúen los argumentos que contribuyen al desarrollo de la Constitución, la pregunta debe requerir que los estudiantes evalúen . Considere el nivel de taxonomía de Bloom de la norma que se está evaluando.

Vocabulario
El vocabulario debe ser apropiado para el nivel estándar que se está evaluando. No debes convertir la evaluación en una prueba de vocabulario. En otras palabras, no debe incluir un alto vocabulario académico que no sea apropiado para el estándar que se está evaluando; de lo contrario, sus resultados podrían implicar que los estudiantes tienen dificultades con un estándar cuando, de hecho, estaban teniendo dificultades con el idioma. Sin embargo (y este es un gran “sin embargo”), recuerde que el vocabulario debe ser apropiado para el estándar, y que debe usar los términos que el estándar y / o la vida real requerirán junto con el concepto (es decir, no se refiera a restar como “para llevar” en su examen porque esa es la forma en que se refiere a la sustracción cuando enseña – use terminología que el estudiante encontrará y debería entender). Si le preocupa que los Estudiantes de inglés y los estudiantes de educación especial que toman una prueba, recuerde que puede optar (de manera uniforme para todos los maestros que administran la prueba) a emular las prácticas de evaluación estatales de permitir el uso de glosarios de definición mientras se toma la prueba para algunos estudiantes

Claridad
La pregunta debe ser clara en lo que se está preguntando y lo más concisa posible. Además, no debe haber distractores engañosos (por ejemplo, no intente “engañar” a los estudiantes).

Libertad de sesgo
La pregunta debe estar libre de sesgos, lo que significa que los estudiantes de todos los orígenes deben tener las mismas oportunidades de hacerlo bien. Por ejemplo , ¿estarían los estudiantes en desventaja socioeconómica en desventaja debido a la falta de familiaridad con algo (por ejemplo, una analogía de remonte usada en una pregunta de cálculo de pendiente)? … o podrían confundirse los estudiantes no hispanos con el término Quinceañera?

Distractores significativos
Las opciones de respuesta equivocadas deben seleccionarse cuidadosamente en función de la probabilidad de su selección y la información que ofrecerán a los educadores después de la prueba. Considera este ejemplo :
14 x 6 =
A. 20
B. 30
C. 64
D. 84

  • A me permitirá saber qué estudiantes agregaron en lugar de multiplicarse (tal vez necesiten ayuda para encontrar detalles o quizás no sepan cómo multiplicar).
  • B me permitirá saber qué estudiantes multiplicaron 6 por cada número en 14 y luego sumaron los 2 juntos.
  • C me permitirá saber qué estudiantes olvidaron llevar el 2 al multiplicar.
  • D es la respuesta correcta.

Orden del distractor logico
Cuando las respuestas son numéricas, enumérelas de bajo a alto.

Redacción positiva
Las preguntas deben ser positivas en términos de cómo están redactadas y / o las implicaciones que hacen. Por ejemplo, evite usar los términos no , ninguno de los siguientes , excepto , etc., y si debe usar dichos términos, colóquelos en mayúsculas (por ejemplo, “NO”).

Independencia
Si bien las preguntas de opción múltiple pueden compartir el mismo material de estímulo, todas las preguntas deben funcionar de forma independiente. Por ejemplo, responder a una pregunta correctamente no debe depender de haber respondido correctamente a una pregunta anterior, ni debe basarse en (o ser ayudado por) la información revelada en otra pregunta (dentro de las opciones de respuestas).
Considere todo lo siguiente en la forma de formato:

Contexto
Considere el mejor contexto para hacer la pregunta. Tenga en cuenta que no todas las preguntas / elementos o evaluaciones deben involucrar opciones múltiples, pero tenga en cuenta la eficiencia y los recursos si es absolutamente necesario un formato diferente. En otras palabras, no abandone la opción múltiple simplemente porque no le “gusta” la opción múltiple; más bien, abandónelo si realmente no es la mejor manera de evaluar un estándar (p. ej., un estándar de “Lenguas de Lenguaje y Lenguaje en Inglés” para escuchar y hablar, los miembros del personal tienen una sólida comprensión de las evaluaciones auténticas, etc.).

# de opciones de respuesta
En una prueba de opción múltiple, 2 o 4-5 opciones de respuesta es el número deseable. Evite 3 (más fácil de responder que 4) a menos que busque simplificar la prueba (por ejemplo, como la Evaluación Modificada de California es como una versión simplificada de la Prueba de Estándares de California para estudiantes de Educación Especial), ya que aumenta la probabilidad de que los estudiantes simplemente adivinen correctamente. Es mejor si todas las preguntas de la prueba contienen el mismo número de opciones de respuesta. Si esto no es posible, intente agrupar las preguntas con la misma cantidad de opciones de respuesta.

Longitud
Las opciones de respuesta deben tener aproximadamente la misma longitud. Las instrucciones dirigidas al alumno (p. Ej., “Lea el pasaje a continuación y responda a las preguntas que siguen”) o al administrador de la prueba (p. Ej., En los niveles elementales inferiores donde el maestro lee las preguntas a la clase) deben ser tan breves como directas. como sea posible.

MIRA

Puede optar por reflejar el aspecto de las evaluaciones estandarizadas en términos de cómo se numeran las preguntas, cómo se detallan las opciones de respuesta, cuántas columnas se usan, cuánto espacio en blanco hay en una página, etc. Si esta evaluación es una de una serie, todos deben mantener una mirada cohesiva.

Recuerde que si bien hay numerosas ventajas en las pruebas de opción múltiple (por ejemplo, son un buen comienzo para un programa de evaluación, especialmente si sus colegas se resisten, mantienen el objetivo de la puntuación, facilitan la retroalimentación instantánea para los estudiantes / padres / educadores, salvan a los educadores tiempo, son rentables, etc.), también tienen limitaciones. Por lo tanto, su evaluación puede presentar una combinación de tipos de evaluación.

TOMAR EL EXAMEN

Está bien. Tome el examen, tal como lo haría un estudiante, preferiblemente una semana después de haber escrito o seleccionado las preguntas para él (o hacer que otros tomen la prueba que no participaron en la redacción / selección de las preguntas). Observe qué preguntas y secciones de exámenes son más fáciles, cuáles son las más difíciles, que podrían generar una confusión innecesaria para los estudiantes, etc.

A pesar de que ya se ha pensado detenidamente en cada pregunta, aún puede detectar problemas en esta etapa. Además, desea tener una idea del rigor y el equilibrio en general. ¿Ya ves cambios que deben hacerse?

BALANCE Y LA GRAN IMAGEN

Esta sección se aplica a la prueba en su totalidad y a sus secciones (no a preguntas individuales):

Amplitud / Alcance de la Norma
Las normas a menudo requieren múltiples cosas de los estudiantes. ¿Las preguntas en su prueba cubren adecuadamente la amplitud de la norma, o están limitadas a solo uno de sus aspectos? Incluso si las preguntas están bien elaboradas, es posible que deba reemplazar algunas preguntas con otras para evaluar minuciosamente un estándar.

Rigor
¿La recopilación de preguntas que evalúa un estándar coincide con el rigor que requiere el estándar? Por ejemplo , si el estándar requiere que los estudiantes evalúen los argumentos que contribuyen al desarrollo de la Constitución, la prueba requiere que los estudiantes evalúen con éxito. Considere el nivel de taxonomía de Bloom de la norma que se está evaluando.

# de preguntas por estándar
Considere la evaluación como un todo, la guía de ritmo y la serie de evaluaciones como un todo. Por ejemplo , ¿la nota de la guía de ritmo esta evaluación debería cubrir 5 estándares, mientras que las pruebas de 20 preguntas contienen 11 preguntas sobre un estándar relativamente simple, dejando solo 9 preguntas para evaluar los 4 estándares restantes? Ese sería un problema que querrías remediar. Por lo general, se necesita un mínimo de 3-4 preguntas para evaluar con precisión el dominio de un estándar, aunque este número puede variar según el alcance y la complejidad del estándar. Si está reflejando planos o asignaciones de preguntas determinadas con anticipación, asegúrese de comparar la evaluación con estos.

Independencia
Si bien las preguntas de opción múltiple pueden compartir el mismo material de estímulo, todas las preguntas deben funcionar de forma independiente. Por ejemplo, responder a una pregunta correctamente no debe depender de haber respondido correctamente a una pregunta anterior, ni debe basarse en (o ser ayudado por) la información revelada en otra pregunta (dentro de las opciones de respuestas).

FORMATO

Considere todo lo siguiente en la forma de formato:

Instrucciones
Si hay instrucciones previas a la prueba para alumnos y profesores, ¿son lo más claras y breves posible?

Materiales de estimulo
Si los materiales de estímulo se utilizan para responder preguntas (p. Ej., Gráfico, tabla, pasaje, mapa, imagen, diagrama, etc.), ¿son las imágenes de buena calidad, claras, etc.? ¿Está clara su conexión con la (s) pregunta (es decir, sabrán los alumnos que tienen que usarlas para responder preguntas relacionadas)?

En mi opinión, todas las buenas evaluaciones también son una oportunidad de aprendizaje para los estudiantes. Si el examen es simplemente una regurgitación de hechos o conocimientos para que la facultad pueda cuantificar un resultado de aprendizaje, eso no es realmente suficiente. Una gran evaluación les permite a los estudiantes pensar críticamente y sintetizar el conocimiento de nuevas maneras, desarrollando aún más su dominio. En mi humilde opinión

Primero pregunte “¿Cuál es el propósito del examen?” Si se trata de evaluar el conocimiento de los alumnos, sugiero que hay mejores formas que un examen escrito en clase. Si es para estimular el estudio y el material de aprendizaje, ese es otro tema en conjunto y un examen, proyecto o tarea a fondo para llevar a casa probablemente proporcionará mejores resultados. Cuestiono la eficacia de la mayoría de los exámenes y dedico mucho tiempo a determinar qué quiero lograr con un examen y cómo se relaciona con los objetivos generales de la clase y la educación de mis alumnos. Así que esto es lo que hago cuando enseño Cálculo 1 y 2.

Para mí un examen es una oportunidad para aprender. Después de todo, hay mucho aprendizaje cuando uno estudia para un examen. Así que lo llevé un poco más lejos. El propósito de los exámenes que doy es enseñar lo siguiente: el material, la investigación, el pensamiento y la resolución de problemas, la expresión de ideas escritas, la presentación y la colaboración. En su mayor parte, el material para la mayoría de mis estudiantes es intrascendente. Así que las lecciones invaluables de mi clase son los últimos cinco. Estas son capacidades invaluables en el lugar de trabajo y, a menudo, los recién graduados universitarios no tienen tales capacidades.

Entonces, ¿cómo puedo lograr esto? Primero doy largos y duros exámenes para el hogar … ~ 30 problemas. Se les permite colaborar y utilizar los recursos disponibles. Espera antes de que digas “qué hay de hacer trampa” … ya llegaré a eso. Espero soluciones claramente presentadas. Me quitaré el 20% por el trabajo descuidado. Me quito el 20% o más por respuestas incompletas o injustificadas. Espero que los exámenes de mi estudiante se realicen con el mismo nivel de profesionalismo que espero de mis empleados. Solo les toma un tiempo entregar un trabajo de mala calidad para recibir el mensaje. Ahora para hacer trampa. También doy una final oral con un valor del 30% de su calificación … suficiente para permitir que la final oral determine la calificación final. Esto es cuando deben demostrar que no solo conocen el material, sino que pueden presentarlo claramente. Para la final oral, no hay notas, recursos, etc. Eligen un problema de cada una de las 5 áreas temáticas diferentes que se deben hacer. Los problemas que pueden elegir son los de los exámenes anteriores. Cada problema recibe una “calificación de dificultad” y su puntuación se calcula de la siguiente manera:

Puntuación = grado de dificultad * (presentación + corrección),

donde la calificación de dificultad, las presentaciones y la corrección se califican en una escala de 1 a 5. Una vez más, espero que la presentación oral tenga el mismo nivel de profesionalismo que espero de mis empleados. Claramente, obtienes un máximo del 80% si no eliges los problemas más difíciles. Si un estudiante ha estado haciendo trampa, nunca elige los problemas difíciles y casi siempre se desempeña mal en el examen, y su calificación final lo refleja. Aunque sé quién está engañando a quién, el sistema se auto corrige.

Así es como trato de hacer que mis clases sean relevantes para su desarrollo profesional.

Un buen examen es un examen que lo desafía a pensar fuera de la caja utilizando las herramientas que ha aprendido al hacer la tarea / estudiar.

El examen no contiene las mismas preguntas asignadas, sino una versión retorcida de la tarea que ha encontrado.

Un buen examen debe ser inequívoco. Debe quedar claro exactamente lo que quiere y cómo lo quiere y no contener suposiciones no declaradas. He visto exámenes espantosos producidos por expertos en pruebas inexpertos donde las preguntas mal formuladas permitieron respuestas triviales involuntarias que no cumplían con el objetivo del examen, pero que cumplirían una lectura estricta de la pregunta. Por ejemplo, una vez tuve que calificar un examen de química donde una pregunta les pedía a los estudiantes que encontraran la concentración de una solución. La intención era probar su comprensión del concepto de molaridad, pero nada en la pregunta requería su respuesta en esa forma. Hice que un estudiante diera su respuesta en partes por millón, lo que es un cálculo mucho más trivial, pero fue técnicamente correcto dado el enunciado de la pregunta.

Hacer una buena pregunta que realmente pruebe la comprensión de un estudiante del material es difícil. La elaboración de un examen completo de ellos es una empresa heroica. Tenía un profesor en la universidad que produciría exámenes que consideraría cosas de belleza. Eran elegantes y realmente probados si realmente entendías el material y no solo si fueras un memorizador experto.

En el espacio de K-12, los exámenes (y la evaluación en general) se utilizan cada vez más como evaluación formativa para ayudar a los estudiantes a descubrir qué saben, qué no saben y qué necesitan aprender a continuación. Al mismo tiempo, las evaluaciones son herramientas que los instructores pueden utilizar para evaluar dónde se encuentran sus estudiantes en el proceso de aprendizaje.

En lugar de utilizar la evaluación para dar una calificación final al final de un curso, se utiliza para dar retroalimentación continua para mejorar el aprendizaje.

No estoy seguro de que exista tal cosa como un buen examen, ya que el 99% de los exámenes no le permiten demostrar realmente lo que sabe, entiende y lo más importante que puede hacer con su conocimiento y comprensión. Los exámenes son relativamente eficientes para que los maestros califiquen. Una mejor forma de evaluación es aquella que lo desafía a demostrar su comprensión y lo que puede hacer con ella, y estos no son exámenes.

Un buen examen es uno que evalúa todos los aspectos de su curso y lo ayuda en el futuro.