¿Es SAT / ACT un indicador efectivo del potencial de éxito de un estudiante en el trabajo de la universidad / universidad y en su carrera? Mantén la curiosidad y sigue aprendiendo

Responde tu pregunta primero: ¡No!

Las pruebas estandarizadas son un gran negocio. Cada año, los estadounidenses gastan millones en las pruebas que deben escribir para ser evaluados para su admisión en programas de pregrado y posgrado, y muchos millones más se gastan en entrenar escuelas en un intento de aumentar las calificaciones. Las empresas de pruebas, especialmente ETS, desempeñan un papel importante como guardianes de la educación superior estadounidense.

¿Qué tan válidas son las puntuaciones de los exámenes para predecir las calificaciones? ¿Tienen alguna validez como predictores del logro real? ¿Están las pruebas sesgadas contra ciertos miembros de la sociedad? Este ensayo revisará la extensa literatura crítica sobre el tema de las pruebas estandarizadas en un intento de responder estas preguntas.

Las compañías de pruebas afirman que las calificaciones de las pruebas son útiles cuando se usan para ayudar a predecir las calificaciones. Sin embargo, como admiten las empresas de pruebas, un importante cuerpo de investigación indica que las calificaciones obtenidas anteriormente son el mejor indicador de las calificaciones futuras. Las pruebas estandarizadas, como el GMAT y el SAT, solo están diseñadas para predecir las calificaciones del primer año, y su poder predictivo no es impresionante.

El grado de correlación entre dos variables, como los puntajes de las pruebas y las calificaciones, se mide mediante un estadístico denominado coeficiente de correlación, que varía en valores de -1 a 1. Un valor de 1 indica una correlación positiva perfecta, y un valor de cero indica sin correlación. La proporción de variación en una variable que se explica por la variación en la otra está dada por el coeficiente de correlación cuadrado, llamado “r-cuadrado”. Otra interpretación de r-squared es el grado de mejora en la predicción sobre las conjeturas puras que obtenemos al usar una variable para predecir la otra.

El SAT tiene la mayor validez predictiva de las pruebas [1], con coeficientes de correlación que van desde .2 a .5 como máximo (R cuadrado que va desde .04 a .25). La correlación entre peso y altura es de .5. ¿Qué tipo de equipo de baloncesto crees que tendrías si todos los miembros fueran elegidos solo por su peso?

Pero, por supuesto, ninguna escuela admite solicitantes solo en los resultados de los exámenes. Las calificaciones obtenidas anteriormente generalmente se combinan con las calificaciones, y ninguna escuela dejará de requerir que los solicitantes presenten calificaciones. Entonces, la pregunta real es: ¿cuánto mejoran las predicciones cuando se agregan los puntajes de los exámenes a las calificaciones?

Crouse y Trushem, autores de The Case Against the SAT, argumentan que la mejora es tan pequeña que no tiene sentido. Si las calificaciones del primer año se usan como una medida de éxito, sus cifras muestran que el uso de los puntajes de clase y SAT significa solo de 1 a 3% menos errores en la predicción que el uso de rango de clase solo. Si la graduación de la universidad es el estándar, agregar los puntajes de la prueba hace una diferencia de menos del 1% [2]

Equilibre esta pequeña mejora en precisión incrementada con el enorme costo impuesto a los estudiantes para escribir el SAT (actualmente $ 24), el GRE (actualmente $ 99) y el GMAT (actualmente $ 190), y el costo de preparación para los exámenes (las escuelas de coaching cuestan entre $ 400 y $ 1200). Si las oficinas de admisiones tuvieran que pagar la tarifa requerida para escribir la prueba, ¿mostrarían mayor interés en la validez de la prueba?

¿Y tienen las pruebas alguna validez como predictores del logro real? El psicólogo de Harvard David McLelland escribe:

“Thorndike y Hagen (1959), por ejemplo, obtuvieron 12,000 correlaciones entre los puntajes de las pruebas de aptitud y varias medidas de éxito ocupacional posterior en más de 10,000 encuestados y concluyeron que el número de correlaciones significativas no excedía lo que se esperaría por casualidad. En otras palabras , las pruebas no fueron válidas … Holland y Richards (1965) y Elton y Shevel (1969) han demostrado que no existen relaciones consistentes entre los puntajes de las pruebas de aptitud escolar en estudiantes universitarios y sus logros reales en liderazgo social, arte, ciencia, música, escritura. , y habla y drama “. [3]

Una revisión más reciente de la literatura apareció en un número de 1985 de la revista Research in Higher Education . Con más de ochenta páginas de extensión, es una de las revisiones bibliográficas más exhaustivas sobre la cuestión de la validez de las pruebas.

El autor Leonard Baird se centró en los estudios realizados entre 1966 y 1984, publicados en cualquiera de las diecinueve revistas académicas de gran prestigio. Estudio tras estudio, muchos de los coeficientes de correlación informados fueron cero o casi cero, y algunos estudios incluso mostraron coeficientes negativos significativos. Lo más sorprendente es que muchas de estas correlaciones negativas aparecen en los estudios sobre la relación entre los puntajes de las pruebas y el número de publicaciones y citas para graduados de programas de doctorado. Por ejemplo:

“Clark y Centra estudiaron dos muestras de receptores de doctorado … La muestra resultante consistió en 239 químicos, 142 historiadores y 221 psicólogos, todos con al menos un puntaje GRE. En química, la correlación de la cantidad de artículos y capítulos de libros con GRE -verbal fue -.02; con GRE-cuantitativo fue -.01; y con GRE-avanzado fue .15 … Para todos los historiadores, estas correlaciones fueron -.24, -.14 y .00. Para todos los psicólogos, las correlaciones fueron -.05, -.02 y .02.

Clark y Centra también examinaron la distribución del número de publicaciones por puntajes GRE. Las distribuciones fueron esencialmente planas, sin ninguna tendencia particular. De hecho, el mayor número de publicaciones fue reportado por los grupos con la puntuación más baja en los tres campos (énfasis agregado). “[4]

Otro estudio mencionado usó el número de citas a los trabajos de cada miembro de la muestra como criterio, para 6,300 recipientes de doctorados en matemáticas / estadística, física, química, bioquímica y psicología. Solo la correlación en física fue significativamente diferente de cero, con un impresionante 10 (10). Un pequeño estudio de 47 ex alumnos de doctorado del programa de relaciones industriales en la Universidad de Carnegie-Mellon utilizó un índice de publicaciones de investigación como criterio (esencialmente el número de publicaciones ajustadas por calidad). Baird escribe que “Las puntuaciones en las pruebas estandarizadas (GRE y la Prueba de admisión para estudios graduados) no discriminaron dentro del rango cubierto por la muestra”. [6]

Las correlaciones de cero y casi cero pueden no sorprender a aquellos de nosotros que siempre hemos sido escépticos sobre el valor de las pruebas de selección múltiple. ¿Pero qué podría explicar las correlaciones negativas ? La investigación en el campo de la psicología cognitiva proporciona algunas sugerencias interesantes. Algunos investigadores en psicología cognitiva han dividido el proceso de pensamiento en al menos dos niveles: un nivel superficial relacionado principalmente con la recuperación de información y un nivel cognitivo profundo que involucra la síntesis y el análisis de una variedad de fuentes de información para interpretar esa información, resolver Un problema complicado, o crear algo nuevo. Un estudio de 1994 que examinó los estilos de pensamiento de 530 estudiantes y su desempeño en el SAT sugiere que las pruebas estandarizadas pueden penalizar a los estudiantes que tienden a favorecer enfoques más profundos para la resolución de problemas.

Los investigadores encontraron que el grupo que obtuvo el puntaje más alto en el SAT tendió a usar estrategias de pensamiento más superficiales que aquellos que obtuvieron puntajes en los rangos bajo y moderado. Además, los estudiantes con calificaciones más bajas emplearon el enfoque profundo con mayor frecuencia que los estudiantes con calificaciones más altas. [7] Por supuesto, algunos de los individuos con puntuaciones altas pueden ser extraordinariamente capaces, ya que pueden poseer algunas de las cualidades importantes que las pruebas no pueden detectar. Pero estos estudios sugieren firmemente que las pruebas estandarizadas no miden las cualidades que son verdaderamente importantes, recompensan la capacidad de adoptar un estilo de pensamiento superficial y, de hecho, pueden penalizar a muchos de los candidatos con las mentes más profundas.

Esta crítica de las pruebas estandarizadas no es nueva. Banesh Hoffman, profesor de matemáticas y ex colaborador de Albert Einstein, destacó exactamente este punto en su libro de 1962 The Tyranny of Testing . Según el Dr. Hoffman, es el formato de elección múltiple el que tiene la culpa. “Las pruebas de elección múltiple penalizan a los estudiantes profundos, frenan la creatividad, fomentan la deshonestidad intelectual y socavan los fundamentos de la educación”, comentó en una entrevista de 1977. [8]

¿Qué hay en las pruebas de selección múltiple que penalizan a la mente más fina? Ocasionalmente, las preguntas individuales son defectuosas, con la respuesta deseada o todas las respuestas incorrectas. Con más frecuencia, las preguntas son ambiguas, por lo que más de una respuesta puede ser defendida como plausiblemente “la mejor”, y solo aquellos candidatos con mentes profundas probablemente notarán la ambigüedad y se preocuparán por ella. Sin embargo, según el Dr. Hoffmann:

“No es la presencia de preguntas defectuosas lo que hace que las pruebas de selección múltiple sean malas. Tales preguntas simplemente las empeoran. Incluso si todas las preguntas fueran impecables, el estudiante profundo vería más en una pregunta de lo que sus competidores más superficiales jamás hubieran soñado. en ella, y gastaría más tiempo y energía mental que ellos para responderla. Así es como funciona su mente. Es decir, su mérito especial. Pero las pruebas de opción múltiple se refieren únicamente a la elección de respuesta de los candidatos, y no con las razones de su elección. Por lo tanto, ignoran esa cosa difícil de alcanzar pero crucial que llamamos calidad “. [9]

El mito de la objetividad

Los fabricantes de pruebas consideran que sus pruebas de opción múltiple son “objetivos” y nos hacen considerar la objetividad como una virtud. Pero el término ‘objetivo’, cuando se aplica a las pruebas, es realmente un nombre inapropiado. La objetividad no reside en las pruebas en su conjunto, sino simplemente en el hecho de que ningún elemento subjetivo ingresa en el proceso de calificación una vez que se ha decidido la clave. Sin embargo, la elección de las preguntas a formular, los temas a cubrir y la elección del formato, es decir, la opción múltiple en lugar de la respuesta de ensayo, son todas decisiones subjetivas. Todo “objetivo” significa, en el sentido técnico estricto, es que se recibirá la misma calificación sin importar quién califique el examen. La respuesta elegida simplemente se juzga como “correcta” o “incorrecta” de acuerdo con la clave, no se permiten argumentos o razones, y la calificación se puede hacer por computadora. En este sentido, todas las pruebas de opción múltiple son “objetivas”.

Pero es importante darse cuenta de que decir que una prueba es “objetiva” no significa que las preguntas sean relevantes o no ambiguas; tampoco significa que las respuestas requeridas sean correctas o incluso “las mejores”. Aún más importante, calificar las pruebas de “objetivo” no significa que las pruebas no estén sesgadas. Como se mencionó anteriormente, las pruebas estandarizadas pueden discriminar a muchos de los mejores candidatos. En general, se acepta que estas pruebas tienen prejuicios contra las mujeres, las minorías y los pobres.

El sesgo puede tomar muchas formas diferentes. Con las mujeres, los puntajes de las pruebas no se pronostican mucho. Aunque las mujeres tienden a obtener calificaciones más bajas en los exámenes estandarizados, tienden a obtener mejores calificaciones en la universidad. [10] Al menos un estudio ha encontrado que los puntajes también subestiman las calificaciones de los estudiantes hispanos. [11]

El sesgo en contra de los estudiantes negros toma una forma diferente. Aunque no hay evidencia clara de que los puntajes de los exámenes subestiman constantemente las calificaciones de los estudiantes negros, parece que los puntajes de los exámenes son predictores mucho menos confiables para los estudiantes negros. O en otras palabras, se harán más errores en la predicción para los estudiantes negros que para los blancos. Esta forma de sesgo se conoce como validez diferencial.

La validez diferencial significa que las pruebas hacen un mejor trabajo al predecir las calificaciones para algunos grupos que para otros. El abogado Andrew Strenio, en su libro de 1983 The Testing Trap , menciona el caso de Larry P. v. Riles, que luchó porque los puntajes de IQ se estaban usando para colocar a un número desproporcionado de escolares negros en clases de recuperación. El juez RF Peckham del Distrito Norte de California emitió su fallo en octubre de 1979. Andrew Strenio escribe:

“El juez Peckham citó dos estudios de la relación de las puntuaciones de CI con las calificaciones. Los estudios encontraron una correlación (conocida como el valor r) de las puntuaciones de CI con las calificaciones de los niños blancos de .25 en un caso y de .46 en el otro. son bajas las cifras de r para empezar. Pero los valores de r para la misma prueba para negros fueron incluso más pequeños: .14 y .20 en los dos casos. En otras palabras, en la medida en que estas pruebas fueron capaces de predecir, sí lo hicieron. un mejor trabajo para los niños blancos que para los negros. El juez Peckham escribió: “La validez diferencial significa que se cometen más errores para los niños negros que para los blancos, y eso es inaceptable”. [12]

Los autores Block y Dworken, en su reciente libro La forma del río, también encuentran que las calificaciones y los puntajes de las pruebas tienen menos validez predictiva para los negros que para los blancos. Ellos encuentran que para todos los estudiantes, un promedio de 100 puntos adicionales de SAT combinados se asocia con una mejora modesta de solo 5.9 puntos percentiles en el rango de clase. Sin embargo,

“La relación entre los puntajes del SAT y el rango predicho en la clase es, sin embargo, incluso más” plana “para los estudiantes negros que para todos los estudiantes: 100 puntos adicionales del puntaje combinado del SAT se asocian con una mejora en el rango de la clase de solo 5.0 puntos para el negro estudiantes. “[13]

¿Están las pruebas sesgadas contra los pobres? Bueno, depende de lo que quieras decir con “sesgo”. Los pobres ciertamente no obtienen una puntuación tan alta en promedio como los estudiantes ricos. Durante los últimos cuarenta años, los puntajes del SAT se han correlacionado positivamente con el ingreso familiar. Aquí está la relación a partir de 1994: [14]

Puntaje de SAT promedio de ingreso familiar

$ 30 – $ 40K / 885

$ 50 – $ 60K / 929

$ 70K + / 1000

(Lo siento, tengo problemas para subir la tabla.)

Por lo tanto, el SAT parece tener prejuicios contra los pobres en el sentido de que los pobres tienden a tener un puntaje más bajo y, por lo tanto, tendrán menos probabilidades de ser admitidos en la universidad de su elección. Pero, como es el caso de los solicitantes de raza negra, los puntajes de las pruebas pueden tener menos validez predictiva para los pobres.

Chuck Stone, ex director de asuntos de minorías en ETS, ha declarado que el valor de las predicciones sobre el rendimiento universitario varía según el nivel de la calificación en sí. Stone ilustró este punto diciendo que si bien el coeficiente de validez SAT-Verbal es de .48 para los examinados con puntaje en el percentil 90, el coeficiente es solo de .17 para los estudiantes en el percentil 10. [15] Entonces, parece razonable concluir que la prueba es un predictor menos confiable para los pobres.

Y la situación puede ser aún peor. Algunas de las escuelas de coaching afirman que pueden elevar sus puntajes hasta en 250 puntos, y su afirmación de que los trabajos de coaching han sido verificados por varios estudios independientes. [16] Dado que el costo del coaching varía de $ 500 a $ 1200, si El coaching funciona, entonces la existencia de una escuela de coaching efectiva pone a los pobres en una desventaja aún mayor.

No es sorprendente que las compañías de pruebas nieguen que el coaching pueda ser más que marginalmente efectivo. ETS ha dicho en declaraciones oficiales que “grupos particulares de estudiantes o programas particulares han alcanzado aumentos de puntaje promedio de hasta 25 a 30 puntos” [17] (énfasis agregado). Esta cifra no tiene relación alguna con las impresionantes ganancias del coaching informadas en varios estudios independientes. Por ejemplo, JP Zuman presentó un artículo en la reunión anual de la American Educational Research Association en abril de 1988. Utilizando la investigación de una disertación doctoral de la Universidad de Harvard, demostró un aumento promedio de 110 puntos en los puntajes del SAT luego del entrenamiento de exámenes realizado por Princeton Review. [ 18]

Otro estudio realizado por la Comisión Federal de Comercio encontró un aumento promedio de 50 puntos en los puntajes del coaching, y concluyó que el material de ETS y College Board para los estudiantes no describía con precisión la posibilidad real de aumentos significativos en los puntajes del coaching. [19]

Así que el coaching se suma al sesgo de las pruebas contra los pobres. John Katzman, fundador de The Princeton Review, lo expresa de esta manera. “La mayoría de nuestros niños son ricos. Para empezar, esos son los niños que tienen una ventaja. Y los estamos elevando a otro nivel”. [20]

La verdad sobre ETS

ETS reconoce con razón que si el entrenamiento es efectivo, el valor y la validez de sus pruebas se ven comprometidos. Si el entrenamiento a corto plazo funciona, entonces los ricos tienen una ventaja aún mayor sobre los pobres, y la validez predictiva de la prueba se vuelve aún más cuestionable. Entonces, ¿por qué ETS debería estar interesado en ocultar la verdad?

ETS se llama a sí mismo un “servicio de prueba” en lugar de una empresa y se describe a sí mismo como una organización “sin fines de lucro”. Por lo tanto, parece que ETS no tiene incentivos económicos para promover el uso de sus pruebas. Pero nada podría estar más lejos de la verdad.

ETS es un monopolio hambriento de ingresos, probablemente el monopolio no regulado más poderoso de Estados Unidos. Las personas que desean asistir a casi todos los programas de pregrado y posgrado no tienen más remedio que tomar sus exámenes. ETS es de hecho “sin fines de lucro” en el sentido contable de que no tiene accionistas. Fue fundada en 1947 por una subvención de la fundación Carnegie y no paga impuestos. Pero ETS tuvo ingresos de $ 432 millones en 1997, y estos ingresos libres de impuestos respaldan una vida muy cómoda y salarios generosos para sus más de 2,000 empleados. La actual presidenta Nancy Cole ganó $ 339,000 en 1996 y usó una casa solariega en Lawrenceville. El vicepresidente Robert Altman recibió $ 358,000 ese año; otros tres empleados tenían salarios superiores a un cuarto de millón y 749 empleados excedían los $ 50,000.

La revista Forbes calificó a ETS de “una de las compañías de crecimiento más pequeñas en negocios de Estados Unidos” en 1976. En 1982, el entonces presidente Gregory Anrig comenzó su mandato en el cargo al encargar un plan estratégico de $ 500,000 a los consultores de gestión Booz, Allen y Hamilton. Para el estudio, Anrig dividió a los empleados de ETS en una docena de “equipos de crecimiento de ingresos” encargados de identificar nuevas oportunidades de ganancias. Más tarde, Anrig emitió un Plan Corporativo, solicitando “recopilación de inteligencia corporativa, relaciones externas y relaciones gubernamentales enfocadas a proporcionar un clima positivo y clientes receptivos para las iniciativas de marketing de ETS”. Los planes de Anrig para el crecimiento de los ingresos parecían haberse hecho realidad: las ventas totales aumentaron un 256% de 1980 a 1995, de $ 106 millones a $ 378 millones. En junio de 1997, ETS tenía una reserva de efectivo de $ 42 millones, incluso después de gastar millones en nuevas propiedades, edificios y equipos en los últimos años. [21]

Por cierto, a pesar de tener una dirección de correo en Princeton, Nueva Jersey, ETS no tiene conexión con la Universidad de Princeton. Sus lujosas oficinas centrales, que incluyen canchas de tenis, una piscina y un hotel privado, se encuentran en Lawrence Township, no en Princeton. La dirección de correo de Princeton es meramente para relaciones públicas.

Y, por cierto, las negaciones oficiales de que el coaching es efectivo no han impedido que ETS dirija una buena línea de negocios que vendan material de coaching. ETS y su organización matriz The College Board ahora venden más de 218 libros y manuales sobre preparación de exámenes, como 10 Real SATs (“¡el único libro con SAT reales!”), La Guía oficial para la revisión de GMAT (“La guía oficial para la revisión de GMAT es el punto de partida si se toma en serio que se trata de ser un candidato a MBA competitivo “, se lee en la contraportada, el GRE: Practicar para tomar el examen general y muchos otros.

Costo de la prueba

Aunque algunas escuelas han dejado de usar las pruebas estandarizadas, el hecho es que la gran mayoría de las escuelas aún requieren calificaciones en las pruebas. Hay varias razones para esto. En primer lugar, desde la perspectiva de las escuelas, los puntajes son completamente gratuitos y proporcionan una manera fácil de clasificar a los solicitantes. El examen de la evidencia del logro real, como muestras de trabajo, proyectos y actividades extracurriculares requiere mucho más tiempo, y el uso de puntajes de corte para reducir el número de solicitudes incluso consideradas permite a las universidades tomar decisiones de admisión un poco menos costosas. Dado que las universidades no pagan por estas pruebas, tienen pocos incentivos para examinar la validez de las pruebas.

¿Se puede equilibrar este beneficio marginal con el costo de la prueba? Los examinados pagan a ETS más de $ 300 millones por año por el privilegio de tomar sus exámenes y los examinados que pueden pagar otros $ 100 millones en cursos de capacitación. Y esto puede ser solo la punta del iceburg. Estas cifras no incluyen el costo de las pruebas en todos los niveles del sistema educativo, y no incluyen los costos de oportunidad asumidos cuando los maestros dedican tiempo a los simulacros de los estudiantes como preparación para las pruebas. Cuando se incluyen estos costos de oportunidad, el gasto anual de los Estados Unidos en programas de pruebas estatales y locales es asombroso. En un estudio realizado en 1993, Walter Haney, George Madaus y Robert Lyons estimaron que los contribuyentes estadounidenses están gastando hasta $ 20 mil millones anuales en pagos directos a empresas que realizan pruebas y en gastos indirectos de tiempo y recursos dedicados a tomar y preparar pruebas estandarizadas. [22]

Los defensores de las pruebas estandarizadas a menudo comentarán que los puntajes proporcionan una medida común para los solicitantes que provienen de orígenes muy diferentes. Esto no tiene sentido. Los oficiales de admisiones ya estudian escuelas secundarias y universidades individuales y ajustan las calificaciones y los rangos de clase en consecuencia. Y un puntaje en el SAT de 1100, por ejemplo, no significa lo mismo para candidatos de diferentes orígenes. Significa algo diferente según el sexo, la raza del solicitante y si la escuela secundaria del solicitante ofrece clases de preparación para el examen.

Algunos oficiales de admisiones le dirán que saben que la misma puntuación significa cosas diferentes para los diferentes solicitantes y que ajustan las puntuaciones en consecuencia. Este es ciertamente un estado de cosas curioso; los puntajes de las pruebas que pretenden proporcionar un estándar común para solicitantes de diferentes orígenes se ajustan a las diferencias en los antecedentes de los solicitantes.

Como concluyen Bok y Bowen [23], los comités de admisión deben abandonar su estrecha preocupación por predecir las calificaciones del primer año, y enfocarse en admitir a aquellos candidatos que probablemente contribuyan más a su campo y a la sociedad. Las muestras de trabajo, las referencias, las declaraciones de propósitos y las actividades extracurriculares son mejores indicadores de comportamiento futuro que los resultados de los exámenes.

¿Cómo podemos justificar el énfasis continuo en los puntajes de las pruebas estandarizadas como un criterio para la admisión a cualquier programa? ¿Deberían las oficinas de admisiones estar más preocupadas por la curiosidad intelectual, la capacidad demostrada para investigar y la capacidad de escribir y pensar críticamente?

Notas al pie:

ETS ha publicado estudios que muestran que la correlación SAT-GPA es mayor que la correlación promedio entre las calificaciones en el GMAT y las calificaciones en la escuela de negocios. Consulte ETS, Prueba de uso y validez (Princeton, NJ, ETS, 1980), página 16.

Además, según los propios datos de ETS, las diversas subpruebas GRE (verbal, cuantitativa, analítica) predicen las calificaciones del primer año, pero la relación es débil. En estudios de 1,000 departamentos graduados en todo el país y 12,000 examinados, el GRE podría representar solo el 9% de la variación en las calificaciones del primer año. En los departamentos de ingeniería, la prueba cuantitativa GRE explicó el 4% de la variación en los grados. En las escuelas de negocios graduadas, la prueba analítica GRE explicó el 6% de la variación en las calificaciones. Ver ETS, Guía GRE para el uso de puntajes , 1998-1999 (Princeton, NJ, ETS).

En 1995, Todd Morrison y Melanie Morrison escribieron un artículo en la revista Educational and Psychological Measurement, basado en su metanálisis de veintidós estudios que cubrían a más de 5,000 examinados desde 1955 hasta 1992. Encontraron que la puntuación verbal y cuantitativa del GRE combinada podría Explica solo el 6 por ciento de la variación de las calificaciones de los estudiantes graduados. Ellos escribieron:

“La cantidad promedio de variación (en el promedio de calificaciones de grado) explicada por el desempeño en estas dimensiones del GRE fue de una magnitud tan pequeña que parece que son prácticamente inútiles desde el punto de vista de la predicción. Cuando este hallazgo se combina con estudios que sugieren que el desempeño En el GRE, la edad, el género y la raza son específicos … el uso de esta prueba como un factor determinante de la admisión de graduados se vuelve aún más cuestionable “.

La cita anterior es de Todd Morrison y Melanie Morrison, “Una evaluación metaanalítica de la validez predictiva de los componentes cuantitativos y verbales del examen de registro de graduados con promedios de calificaciones de graduados que representan el criterio de éxito de los graduados,” Medición educativa y psicológica 55 , no. 2, abril de 1995, páginas 309-316.

James Crouse y Dale Trusheim, El caso contra el SAT (University of Chicago Press, 1988), páginas 53-71.

Crouse y Trusheim escriben:

“Cuando utilizamos el nivel de bachillerato como criterio, los resultados son incluso menos impresionantes que cuando el éxito de grado de primer año es el criterio. De hecho, los pronósticos correctos aumentan solo 0.1 por 100 al usar el SAT con el estándar de ingreso GPA previsto de 2.5 y en 0.2 por ciento 100 utilizando el estándar de admisión GPA previsto de 3.0 “. (página 58)

Y es importante tener en cuenta que estos resultados no resultan de un rango restringido en los puntajes de las pruebas. Crouse y Trusheim escriben:

“Sin embargo, nuestros resultados no surgen debido a los rangos restringidos. Recientemente, ETS buscó sus registros del Servicio de Estudio de Validez para el College Board y encontró veintiuna universidades donde las distribuciones de puntajes del SAT y los registros de la escuela secundaria son prácticamente idénticas a las de los En estos colegios seleccionados cuidadosamente con un rango ilimitado para los registros de la escuela secundaria y los puntajes del SAT, la ecuación óptima para predecir las calificaciones de primer año utilizando los registros de la escuela secundaria y los puntajes del SAT es uno de los mejores que hemos visto … Si los datos deberían Mostrar grandes beneficios del SAT, deben ser estos.

Sin embargo, no lo hacen. … las ganancias en los grados de primer año para los estudiantes seleccionados con el SAT solo promedian 0.03 en una escala de cuatro puntos, de nuevo casi idénticas a las ganancias que reportamos arriba “(Ibid, página 67)

David McClelland, “Prueba de competencia en lugar de inteligencia”, que aparece en The IQ Controversy , editado por Block y Dworken (Pantheon Books, 1976), página 49.

Leonard L. Baird, “¿Los grados y exámenes predicen el logro de un adulto?” Investigación en Educación Superior 23, no. 1, 1985, página 25.

Ibid, página 22.

Melissa Hargett, et.al, “Diferencia en las estrategias de aprendizaje para estudiantes de alta, media y baja capacidad medida por el proceso de estudio” , fue presentada en la reunión anual de la Asociación Nacional de Psicólogos Escolares, Seattle, marzo de 1994, Documento ERIC 376 402.

The Myth of Measurability , editado por Paul Houts, (Hart Publishing Company, 1977), página 202.

Banesh Hoffman, The Tyranny of Testing , (Collier Books, 1962), página 92.

10.

Bridgeman, B., y Wendler, C. ” Diferencias de género en los factores predictivos del rendimiento universitario en matemáticas y en los grados de los cursos universitarios de matemática” . Revista de Psicología de la Educación , v.83, N.2, 1991.

Clark, MJ, y Grandy, J. ” Diferencias de sexo en el rendimiento académico de los estudiantes que toman el examen de aptitud académica” , Informe de la Junta Universitaria, 84-88, Nueva York: Junta de examen de la universidad, 1984.

11.

Kanarek, EA ” Diferencias de género en el desempeño de estudiantes de primer año y su relación con el uso del SAT en las admisiones”. Documento presentado en la Asociación Noreste para el Foro de Investigación Institucional, Providence, RI, octubre de 1988.

Rosser, P. ” Sesgo sexual en las pruebas de admisión a la universidad: por qué las mujeres pierden” (4ª ed.) . Cambridge, MA; Centro Nacional de Pruebas Justas y Abiertas, 1992.

Pearson, B. ” Validez predictiva de la prueba de aptitud escolástica (SAT) para estudiantes hispanos bilingües” . Hispanic Journal of Behavioral Sciences , v.15, N.3, agosto de 1993.

12.

Strenio, Andrew, The Testing Trap (Rawson Wade Publishers, 1981), página 203.

13.

Bowen, William y Bok, Derek, La forma del río (Princeton University Press, 1998), página 75.

14.

Owen, David, ibid, página 227.

15.

Strenio, Andrew, ibid, página 135.

dieciséis.

Comisión Federal de Comercio. Informe del personal sobre la investigación de la Comisión Federal de Comercio del entrenamiento para las pruebas de admisión estandarizadas . Oficina Regional de Boston, abril de 1981.

17.

ETS, Taking the SAT , 1983, página 6.

18.

Zuman, JP La efectividad de la preparación especial para el SAT: una evaluación de una escuela de coaching comercial. Documento presentado en la reunión anual de la American Educational Research Association, abril de 1988.

19.

20.

Owens, David, ibid., Página 133.

21.

Sach, Peter, ibib. Página 228.

22.

Walter Haney, George Madaus y Robert Lyons, The Fractured Marketplace para pruebas estandarizadas, (Boston: Kluwer Academic Publishers 1993), página 95.

23.

Bowen, William y Bok, Derek, ibid, páginas 276-286.

Referencias:

The IQ Controversy , editado por Block y Dworken (Pantheon Books, 1976).

Prueba de uso y validez, ETS (Princeton, NJ, 1980)

The Testing Trap , Andrew Strenio (Rawson Wade Publishers, 1981)

“Diferencias de sexo en el rendimiento académico de los examinados de aptitud escolástica” , Clark, MJ, y Grandy, J. Informe del College Board, 84-88, Nueva York: College Examination Board, 1984.

“¿Los grados y exámenes predicen el logro de un adulto?” , Leonard L. Baird, Investigación en Educación Superior, Vol. 23, No. 1, 1985.

El caso contra el SAT , James Crouse, Dale Trusheim (U. of Chicago Press, 1988).

” Diferencias de género en el desempeño de los estudiantes de primer año y su relación con el uso del SAT en las admisiones”, Kanarek, documento de EA presentado en la Asociación Noreste para el Foro de Investigación Institucional, Providence, RI, octubre 1988.

“Diferencias de género en los factores predictivos del rendimiento en matemática universitaria y en los grados del curso de matemática universitaria” , Bridgeman, B., y Wendler, C. Journal of Educational Psychology , v.83, N.2, 1991.

” Sesgo sexual en las pruebas de admisión a la universidad: por qué las mujeres se pierden (4ª ed.)”, Rosser, P. Cambridge, MA; Centro Nacional de Pruebas Justas y Abiertas, 1992.

” Validez predictiva de la prueba de aptitud escolástica (SAT) para estudiantes hispanos bilingües” Pearson, B .. Hispanic Journal of Behavioral Sciences , v.15, N.3, agosto de 1993.

El mercado fracturado para pruebas estandarizadas , Walter Haney, George Madaus y Robert Lyons (Boston: Kluwer Academic Publishers 1993).

“Diferencia en las estrategias de aprendizaje para estudiantes de alta, media y baja capacidad medida por el investigador del proceso de estudio” , Melissa Hargett y otros, presentada en la Reunión Anual de la Asociación Nacional de Psicólogos Escolares, Seattle, marzo de 1994, Documento ERIC 376 402 .

Ninguno de los anteriores , David Owen (Rowman & Littlefield, 1999).

Mentes estandarizadas , Peter Sacks (Perseus Books, 1999).

ACTEmpleos y carrerasExperiencia en la universidad y la universidadFacultad y facultad universitariaPruebas estandarizadasSAT