Sexismo, Pruebas y "Habilidad Académica"

Cuando estaba enseñando mi curso de pregrado en psicología evolutiva, mi enfoque de prueba y evaluación fue único. Puede leer sobre esta filosofía con más detalle aquí, pero la esencia de mi método fue evitar específicamente los formatos de opción múltiple en favor de las preguntas de ensayos cortos con capacidad de revisión ilimitada por parte de los estudiantes. Preferí este formato de examen por varias razones, la principal de las cuales fue que (a) no sentí que las pruebas de opción múltiple fueran muy buenas para evaluar qué tan bien los estudiantes entendían el material (la memorización y las buenas suposiciones no son igual a la comprensión) y (b) Realmente no me importaba calificar a mis alumnos tanto como me importaba conseguir que aprendieran el material. Si no lo entendieron correctamente en su primer intento (y muy pocos estudiantes lo hacen), quería que tuvieran la capacidad y la motivación para continuar participando hasta que lo hicieran bien (lo que finalmente hizo, el promedio de la clase para cada examen comenzó alrededor de 70 y subió a 90). Para los propósitos de la discusión de hoy, el punto importante aquí es que mis exámenes fueron un poco más cognitivamente desafiantes de lo habitual y, según un nuevo documento, eso significa que había predispuesto involuntariamente mis exámenes de maneras que desagradan a los "grupos históricamente desatendidos" como mujeres y pobres

Flickr/getradwithbrad
Oops …
Fuente: Flickr / getradwithbrad

Sin embargo, lo que me llamó la atención sobre este documento en particular fue el comunicado de prensa inicial que lo acompañó. Específicamente, los autores fueron citados diciendo algo que encontré, bueno, un poco raro:

"A primera vista, uno podría suponer que las diferencias en el rendimiento del examen se basan en la capacidad académica. Sin embargo, controlamos esto en nuestro estudio al incluir los promedios de puntaje de calificaciones de los estudiantes en nuestro análisis ".

Por lo tanto, los autores parecen creer que una brecha en el rendimiento en las pruebas académicas surge independientemente de las habilidades académicas (cualquiera que éstas conlleven). Esto planteó la pregunta inmediata en mi mente sobre cómo uno sabe que las habilidades son las mismas a menos que uno tenga un método para probarlas. Parece un poco extraño decir que las habilidades son las mismas sobre la base de un conjunto de pruebas (las que proporcionaron los GPA entrantes), pero luego continuar sugiriendo que las habilidades son las mismas cuando un conjunto diferente de pruebas proporciona un resultado contrario. En aras de resolver mi curiosidad, rastreé el papel para ver lo que en realidad se informó; después de todo, estas pequeñas noticias borradas a menudo dan los detalles mal. Desafortunadamente, este parece capturar las opiniones del autor con precisión.

Comencemos por revisar brevemente lo que los autores estaban viendo. El documento, por Wright et al (2016), se basa en datos recopilados de tres años de tres cursos introductorios de biología que abarcan 26 instructores diferentes, aproximadamente 5,000 estudiantes y 87 exámenes diferentes. Sin entrar en demasiados detalles innecesarios, las pruebas fueron evaluados por evaluadores independientes de cuán cognitivamente desafiantes eran, su formato, y los estudiantes fueron clasificados de acuerdo a su género y estado socioeconómico (SES, según lo medido por si calificaban para un programa de ayuda financiera). Con el fin de intentar y controlar la capacidad académica, Wright et al (2016) también analizaron el GPA de primer año de los estudiantes que ingresan a las clases de biología (según aproximadamente 45 créditos, se nos dice). Debido a que los autores controlaron el GPA entrante, esperan persuadir al lector de lo siguiente:

Esto implica que, al menos por una medida, estos estudiantes tienen la misma capacidad académica, y si tienen resultados diferenciales en los exámenes, es probable que factores distintos a la capacidad influyan en su desempeño.

Ahora se podría argumentar que hay más en la capacidad académica que lo que captura un GPA, que es precisamente por lo que lo haré en un minuto, pero continuemos con lo que los autores encontraron primero.

La prueba desafiante cognitiva fue, de hecho, más desafiante. Se esperaría que un estudiante masculino con promedio estadístico, por ejemplo, tenga un 12% peores en la prueba más desafiante de su muestra, en comparación con la más fácil. Sin embargo, este efecto no fue el mismo entre los géneros. Una vez más, utilizando hombres y mujeres con promedio estadístico, cuando las pruebas fueron lo menos desafiantes desde el punto de vista cognitivo, efectivamente no hubo una brecha de desempeño (aproximadamente una diferencia estimada del 1,7% que favorecía a los hombres); sin embargo, cuando las pruebas fueron las más cognitivamente desafiantes, esa brecha esperada se elevó a una sorprendente esperada … 3,2% de diferencia. Entonces, aunque la diferencia de género casi se duplicó nominalmente, en términos de realmente importar en cualquier sentido práctico de la palabra, su tamaño era tal que probablemente no se notaría a menos que uno realmente lo estuviera buscando. Se descubrió un patrón similar para SES: cuando las pruebas fueron fáciles, no hubo efectivamente ninguna diferencia entre los bajos o altos en SES (1.3% que favorece a los más altos); sin embargo, cuando las pruebas fueron casi desafiantes, esta diferencia esperada se elevó a aproximadamente 3.5%.

Flickr/Landon
Útil para detectar manchas estadísticas y para quemar insectos
Fuente: Flickr / Landon

Hay mucho que decir sobre estos resultados y cómo están enmarcados en el documento. Primero, como mencioné, realmente son diferencias menores; hay muy pocos casos donde una diferencia del 1-3% en los puntajes de las pruebas va a hacer que un estudiante sea o no un estudiante, así que no creo que haya ninguna razón real para preocuparse o para ajustar los exámenes; no prácticamente, de todos modos.

Sin embargo, hay temas teóricos más grandes que se avecinan en el periódico. Una de ellas es que los autores usan la frase "controlados por la capacidad académica" con tanta frecuencia que un lector podría llegar a creer que eso es lo que hicieron a partir de la simple repetición. El problema aquí, por supuesto, es que los autores no controlaron eso ; ellos controlaron para GPA. Desafortunadamente para la presentación de Wright et al (2016), esas dos cosas no son sinónimos. Como dije antes, es extraño decir que la capacidad académica es la misma porque un conjunto de pruebas (GPA entrante) dice que sí, mientras que otro grupo no lo hace. El primer conjunto de pruebas parece ser privilegiado sin ningún motivo razonable. Debido a esa interpretación injustificada, los autores pierden (o más bien, eliminan a propósito) la capacidad de hablar sobre cómo estas brechas pueden deberse a alguna diferencia de rendimiento. Este es un movimiento retórico útil si uno está interesado en hacer abogacía, ya que implica que la brecha es injusta y debería ser corregida de alguna manera, pero no si uno está buscando la verdad del asunto.

Otro tema bastante importante en el documento es que, por lo que pude ver, los autores predijeron que encontrarían estos efectos sin proporcionar realmente una explicación sobre cómo o por qué surgió esa predicción. Es decir, ¿qué impulsó su expectativa de que los hombres superarían a las mujeres y los ricos superarían a los pobres? Esto termina siendo un problema porque, al final del artículo, los autores hacen flotar algunas posibles explicaciones (no probadas) de sus hallazgos. La primera de ellas es la amenaza estereotipada: la idea de que ciertos grupos de personas no obtendrán buenos resultados en las pruebas debido a algún estereotipo negativo sobre su desempeño. Esto no encaja bien con los datos por dos razones: en primer lugar, mientras Wright et al (2016) afirman que el estereotipo está "bien documentado", en realidad no se replica (además de no tener mucho sentido teórico). En segundo lugar, incluso si fuera una cosa real, la amenaza del estereotipo, como típicamente se estudia, requiere que el sexo de uno sea destacado antes de la prueba. Como me encontré con un total de cero pruebas durante toda mi experiencia universitaria que hicieron que mi género destacara, mucho menos mi SES, solo puedo suponer que las pruebas en cuestión tampoco lo hicieron. Para que la amenaza del estereotipo funcione como una explicación, entonces, las mujeres y los pobres tendrían que estar bajo una constante amenaza estereotipada. A su vez, esto dificultaría en primer lugar la documentación y la amenaza del estereotipo de los estudiantes, ya que nunca podrías tener una condición donde tus sujetos no la experimentaran. En resumen, entonces, la amenaza estereotipada parece un mal ajuste.

Las otras explicaciones que se presentan para esta diferencia de género son la posibilidad de que las mujeres y los estudiantes pobres tengan una visión más fija de la inteligencia en lugar de mentalidad de crecimiento, por lo que se retiran del material en lugar de mejorar (es decir, "tenemos que cambiar su mentalidades para cerrar esta abrumadora brecha de 2%) o la posibilidad de que las preguntas de prueba estén escritas de forma que sesguen sutilmente la capacidad de las personas de pensar sobre ellas (el ejemplo que los autores plantean es que una pregunta escrita sobre la aplicación de algún concepto al deporte podría favorecer hombres, en relación con las mujeres, ya que los hombres tienden a disfrutar más de los deportes). Dado que los autores sí tuvieron acceso a las preguntas de la prueba, parece que podrían haber examinado esta última posibilidad al menos en detalle (mínimamente, tal vez, mirando si las pruebas escritas por instructoras dieron como resultado resultados diferentes a los escritos por los hombres). unos, o examinando el contenido de las preguntas mismas para ver si las mujeres empeoraron en las de género). No puedo decir por qué no realizaron tales análisis.

Flickr/Stephen Downes
Tal vez era demasiado trabajo y carecían de una mentalidad de crecimiento
Fuente: Flickr / Stephen Downes

En resumen, estas diferencias promedio muy pequeñas que se descubrieron podrían atribuirse fácilmente, muy simplemente, a que GPA no es una medida completa de la capacidad académica de un estudiante. De hecho, si las pruebas que determinan el GPA de primer año no son las más desafiantes desde el punto de vista cognitivo (como cabría esperar, dado que los estudiantes tomarían principalmente cursos introductorios generales con clases de gran tamaño), esto podría hacer que los estudiantes parezcan más similar en habilidad de lo que realmente eran. Se puede pensar que el asunto es utilizar este ejemplo estereotípicamente masculino (que seguramente obstaculizará la capacidad de las mujeres para pensarlo): imagine que probé personas en una habitación con pesos que oscilaban entre 1 y 15 libras y les pedí que se rizaran una vez. Esto me daría un sentido pobre para cualquier diferencia subyacente en la fuerza porque el rango de la capacidad probada estaba restringido. Si tuviera que pedirles que hagan lo mismo con pesos de entre 1 y 100 libras la próxima semana, podría concluir que es algo sobre los pesos, y no las capacidades de las personas, cuando se trata de descubrir por qué surgieron repentinamente las diferencias (ya que Creo erróneamente que ya controlé sus habilidades la primera vez).

Ahora no sé si algo así es realmente responsable, pero si las pruebas que determinan el GPA de primer año utilizan el mismo tipo de habilidades en los mismos grados que en los cursos de biología estudiados, entonces el control de GPA debería haber solucionado ese problema. problema potencial. Como el control de GPA no lo hizo, me siento seguro suponiendo que haya alguna diferencia en las pruebas en términos de qué habilidades están midiendo.

Referencias: Wright, C., Eddy, S., Wenderoth, M., Abshire, E., Blankenbiller, M., y Brownell, S. (2016). La dificultad cognitiva y el formato de los exámenes predice las brechas socioeconómicas y de género en el rendimiento de los exámenes de los estudiantes en los cursos introductorios de biología. Life Science Education, 15.