¿Qué es la prueba de Kuder-Richardson para la confiabilidad y qué significan sus resultados?

Supongamos que realiza una prueba de personalidad de opción múltiple que decide una pregunta de sí / no, como “¿Pertenece a Slytherin House?”. Si le da la prueba a un grupo de personas, puede usar la Prueba de Kuder-Richardson en sus resultados para intentar decirle algo sobre qué tan confiables son los resultados. Por “confiable”, queremos decir que si hiciéramos una nueva prueba en la misma línea pero con diferentes preguntas, las personas obtendrían prácticamente el mismo resultado que antes.

¿Cómo sería si la prueba no fuera confiable? Imagine que cuando las personas responden las preguntas, eligen la respuesta “Slytherin” a una pregunta, la respuesta “Hufflepuff” a la siguiente pregunta, etc., y que no hay un patrón real. Si alguien acaba de elegir la respuesta “Slytherin” a la pregunta cinco, no es más probable que elija la misma respuesta que la pregunta seis. Las preguntas serían independientes unas de otras.

Si las personas realmente son Slytherin o no, o realmente son un cierto porcentaje de Slytherin, y la prueba es buena, entonces saber las respuestas a la primera mitad debería decirle mucho sobre las respuestas a la segunda mitad. Y si eso es cierto, entonces, presumiblemente, toda la prueba le dice mucho sobre los resultados que obtendrían las personas en una segunda prueba muy similar.

Para cuantificar esto, tomamos cada pregunta y observamos qué porcentaje de personas elige la respuesta “Slytherin”. Si eligieron la respuesta “Slytherin”, eso es un puntaje de 1, de lo contrario es un puntaje de 0. Cada pregunta tiene un promedio, que es [math] p [/ math], y una varianza, que es [math] p ( 1-p) [/ math].

No importa qué, el puntaje promedio en toda la prueba proviene de sumar el promedio de cada pregunta. Por ejemplo, en una prueba de tres preguntas, si el 30% de las personas elige Slytherin en la pregunta 1 y el 50% lo elige en la pregunta 2, y el 60% lo elige en la pregunta 3, independientemente de si sus respuestas tienden a ser coherentes, todavía tenemos 0.3 + 0.5 + 0.6 = 1.4 / 3 como puntaje promedio en la prueba.

Las variaciones, sin embargo, no funcionan de esta manera. Si las personas eligen de forma independiente, para que conocer algunas de las respuestas de una persona no le informen sobre el resto de sus opciones, entonces la varianza de los puntajes de la prueba final proviene de sumar la varianza en cada pregunta, como antes. Sin embargo, si las personas son bastante constantes, para que las personas que eligen Slytherin respondan la mayor parte del tiempo en la primera mitad de la prueba, sigan eligiendo la mayor parte del tiempo en la segunda mitad, la variación aumentará. Las personas que realmente son en su mayoría Slytherin terminan con puntajes mucho más altos y las personas que no son Slytherin terminan con puntajes bajos, por lo que aunque el promedio es el mismo, la varianza es mayor.

Entonces, la idea detrás de la prueba es que cuando la prueba es muy confiable, la varianza en los puntajes totales (puntajes totales de llamadas [math] X [/ math]) es mucho mayor que la suma de varianzas de las preguntas individuales (call questions [matemáticas ] x [/ math]). O:

[math] \ mathrm {var} (X) >> \ sum \ mathrm {var} (x) [/ math]

Por lo tanto, [math] \ frac {\ sum \ mathrm {var} (x)} {\ mathrm {var} (X)} [/ math] debe estar cerca de cero si la prueba es confiable y cerca de uno si no es confiable. La prueba KR lo quiere al revés (uno para confiable, cero para no confiable), por lo que su fórmula es

[math] r = \ left (1 – \ frac {\ sum \ mathrm {var} (x)} {\ mathrm {var} (X)} \ right) \ frac {N} {N-1} [/ math ]

Esto varía entre cero (para adivinar al azar) y uno, y la idea es que si obtienes una puntuación alta (que Wikipedia dice que podría ser 0.9), significa que la prueba probablemente sea confiable; las respuestas en una pregunta le informan sobre las respuestas en las otras, y si realizó otra prueba esencialmente de la misma manera, probablemente obtendría resultados similares.

No estoy abogando por que esta prueba logre lo que dice, simplemente describo lo que parece estar basado en lo que encontré en Wikipedia.