¡Las mujeres negras no son (clasificadas) menos atractivas! Nuestro análisis independiente del conjunto de datos Agregar salud

[Esta publicación fue co-autor con Jelte Wicherts]

En su blog, titulado "Por qué las mujeres negras son menos atractivas físicamente que otras mujeres", el psicólogo Satoshi Kanazawa de la London School of Economics (LSE) concluyó que había descubierto que las mujeres afroamericanas eran "objetivamente" menos atractivas que las mujeres estadounidenses de origen europeo, asiático americano y nativo americano. Las respuestas inmediatas y de largo alcance a sus controvertidas conclusiones llevaron a Psychology Today a cambiar primero el título del blog y luego a retractarlo por completo.

A los pocos días de que apareciera la publicación en el sitio, se produjo una tormenta de fuego. Bloggers de todo el mundo expresaron su indignación por el mensaje. Las respuestas de muchas personas estaban emocionalmente cargadas, y con razón. Muchas mujeres afroamericanas, que deben sufrir discriminación durante toda su vida, estaban molestas y heridas. Otras críticas intentaron ser analíticas, pero no abordaron los temas clave, o atacaron todo el campo de la psicología evolutiva debido a un miembro de la disciplina (ver mis pensamientos sobre eso aquí). La organización estudiantil más grande de Londres (que representa a 120,000 estudiantes) exigió la baja de Kanazawa de LSE. Según su portavoz, LSE ha iniciado una investigación interna en el blog, aunque el portavoz de LSE hizo hincapié en la libertad académica de sus investigadores.

Estamos de acuerdo en que los científicos no deben ser despedidos por hacer declaraciones descorteses que pueden ofender a las personas. Sin embargo, la libertad académica no implica el derecho (1) a malinterpretar los datos y (2) a ignorar los hallazgos empíricos que van en contra de los reclamos establecidos.

Recuperamos los datos de Add Health en los que Satoshi Kanazawa basó sus conclusiones para ver si sus resultados se mantienen bajo escrutinio. Add Health es un estudio realizado en una muestra representativa a nivel nacional de adolescentes en los grados 7-12 que han sido seguidos hasta la edad adulta. El estudio incluye muchas, muchas variables (más de 8000 solo en los conjuntos de datos disponibles públicamente), incluidas medidas de bienestar social, económico, psicológico y físico. Cuando abrimos por primera vez el conjunto de datos, ¡nos abrumaron las variables! (Una cosa que podemos agradecer a Kanazawa incluso es plantear esta pregunta en primer lugar, ya que probablemente nunca hubiésemos visto las variables que hizo. Además, se debe tener en cuenta que con tantas variables, es probable que haya muchos resultados estadísticamente significativos en el conjunto de datos simplemente por casualidad [1]).

Una vez que finalmente ubicamos las variables relevantes, realizamos los análisis pertinentes y esto es lo que encontramos:

1. Kanazawa menciona varias veces que sus datos sobre el atractivo se califican "objetivamente". Las calificaciones de atractivo de los entrevistadores muestran diferencias extremadamente grandes en términos de qué tan atractivo encontraron al entrevistado. Por ejemplo, las clasificaciones recopiladas de las ondas 1 y 2 están correlacionadas en solo r = .300 (una correlación va de -1.0 a +1.00), lo que sugiere que se puede predecir un escaso 9% de las diferencias en las calificaciones de la segunda ola del mismo individuo sobre la base de las calificaciones hechas un año antes [2]. Las calificaciones tomadas en Waves 3 y 4 se correlacionaron entre evaluadores aún más bajos, con solo .136, aun cuando los entrevistados habían llegado a la edad adulta para entonces y por lo tanto no se espera que cambien en el desarrollo físico tan fuertemente como los adolescentes. Aunque estas clasificaciones no se tomaron al mismo tiempo, si las clasificaciones de atractivo tienen menos de un 2% de varianza común, es difícil presionar para poner de lado la afirmación de Kanazawa de que el atractivo se puede calificar objetivamente.

La baja convergencia del hallazgo de calificaciones sugiere que en este conjunto de datos muy grande y representativo, la belleza está principalmente en el ojo del espectador. Lo que estamos viendo aquí son valoraciones simples del atractivo de los entrevistadores cuyos gustos difieren bastante. Por ejemplo, un entrevistador (n. ° 153) calificó a 32 mujeres como "casi normales", mientras que otro entrevistador (n. ° 237) encontró casi 18 mujeres que calificó como "poco atractivas". Los evaluadores difieren mucho en términos de cómo Valorar el atractivo del entrevistado y dado que la mayoría de ellos realizó numerosas entrevistas y clasificaciones, esta fuente de variación debe tenerse en cuenta al evaluar las diferencias de raza promedio en las calificaciones de atractivo. Kanazawa no indica que lo haya hecho.

2. Kanazawa interpreta sus hallazgos en términos de atractivo adulto, sin embargo, la mayoría de sus datos se basaron en las calificaciones de atractivo de los participantes cuando eran adolescentes . Si muchos de nosotros (incluidos los autores de esta publicación) fuimos juzgados a lo largo de nuestras vidas basándonos en nuestro atractivo físico cuando éramos adolescentes, ¡muchos de nosotros tendríamos problemas!

Agregar salud actualmente tiene cuatro "ondas" o fases. Aquí hay una tabla de las cuatro olas y los grupos de edad de las cuatro olas:

Tenga en cuenta que solo Wave IV en realidad consiste en "Adultos". De hecho, el rango de edades para Wave I y Wave II es 12-22, con una edad promedio de alrededor de 16 para ambas ondas.

Imagina el escenario. Investigadores adultos (lamentablemente no pudimos encontrar información sobre los propios entrevistadores) ingresaron a los hogares de estos participantes y calificaron su propia visión subjetiva del atractivo físico de los participantes del estudio en una escala del 1 al 5 (desde "muy poco atractivo "hasta" muy atractivo "). Para Waves I y II en particular, las calificaciones posiblemente no podrían (¡lo esperamos!) Referirse a las calificaciones del atractivo sexual de estos niños. Así que las discusiones sobre este tema usando datos del sitio web de citas OK Cupid realmente no son apropiadas aquí.

Solo en las ondas 3 y 4 los participantes tenían la edad suficiente en promedio (M = 22.2, SD = 1.9 y M = 29.00 SD = 1.8, respectivamente) para llamarse realmente "mujeres" y "hombres" en lugar de niñas y niños. Si uno mira los datos de las olas (3 y 4) en los que todos los entrevistados alcanzaron la adultez legal, el patrón de resultados ya no respalda la principal conclusión de Kanazawa.

En Wave 3, sí encontramos una ligera diferencia en las calificaciones de atractivo a favor de las mujeres europeas, pero este efecto ya no es significativo después de tener en cuenta la variación aleatoria debida a los calificadores.

Sin embargo, solo los datos de Wave 4 son relevantes para el problema que Kanazawa quiere abordar simplemente porque esta es la única ola que consiste en adultos (se recopilaron cuando todos los participantes eran adultos de entre 25 y 34 años). Desafortunadamente, Kanazawa no incluye la presentación de estos resultados de Wave 4, a pesar de que utiliza datos de Agregar salud en la mayoría de sus estudios y estos datos han estado disponibles durante más de un mes.

Centrándose solo en Wave 4, es obvio que entre las mujeres de la muestra, no hay diferencia entre las etnias en términos de calificaciones de atractivo físico . Las diferencias en las distribuciones para las mujeres cuando se prueban con una prueba de independencia regular (y ligeramente liberal) no son significativas y, por lo tanto, pueden atribuirse al azar (Chi cuadrado de Pearson = 15.6, DF = 12, p = .210). Aquí está el gráfico que muestra la distribución de calificaciones (en porcentajes) para 1564 estadounidenses de origen europeo, 553 afroamericanos, 97 nativos americanos y 96 mujeres asiáticas de los Estados Unidos (con una media aritmética debajo de cada grupo):

También analizamos los datos de los hombres en la muestra y la misma onda y encontramos que las diferencias del grupo racial para los machos fueron significativas (Chi-Cuadrado de Pearson = 21.2, DF = 12, p = .048), con machos negros mostrando una calificación de atractivo general ligeramente más alta que las otras etnias ( Nota : este resultado no es estadísticamente sólido, ya que no tiene en cuenta la dependencia de los puntos de datos debido al uso de los mismos calificadores). Aquí está ese gráfico:

Dado que esta pequeña diferencia no se presentó en la ola 3, no lo haríamos en gran medida.

Kanazawa dice que solo le interesan las verdades "duras" sobre la naturaleza humana. Y la verdad del asunto es que, como adultos, las mujeres negras en América del Norte no son calificadas como menos atractivas por los entrevistadores del estudio Agregar salud, que es una de las muestras más representativas a nivel nacional jamás disponibles para investigación .

Tenga en cuenta que los datos podrían haber surgido de cualquier manera, y no importa cómo resultó, habríamos informado de lo que encontramos. Creemos que este es un tema de investigación interesante e importante. Otra investigación rigurosa revisada por pares (que involucra a una muestra mucho menos representativa y más pequeña de los Estados Unidos) ha mostrado diferencias de significancia estadísticamente significativas en las calificaciones de atractivo basadas en la etnia.

Sin embargo, creemos que dicha investigación debe mantenerse a un nivel más alto que otros temas de investigación, tanto en rigor científico como en presentación (ver aquí un argumento similar). Esto debería ser así especialmente para los temas que potencialmente podrían causar daño y sufrimiento a las personas dentro de un grupo en particular. La ciencia no opera en el vacío. La recopilación rigurosa de ciencia y los informes científicos responsables son esenciales no solo para el progreso de la ciencia sino también para el mejoramiento de la sociedad (¿no es ese el objetivo de la psicología?).

Incluso si la investigación buena y rigurosa finalmente muestra que las mujeres negras son calificadas de manera diferente, en promedio, en características relevantes (aunque es altamente improbable teniendo en cuenta la representatividad de este conjunto de datos), puede haber implicaciones para el racismo. Sin embargo, la forma de combatir el racismo no es ignorarlo (ver aquí un argumento relacionado) sino comprender cómo y por qué se desarrolla, entreteniendo toda la gama de posibles explicaciones causales , desde el biológico hasta el aprendizaje cultural y bio-sociocultural. aprendizaje.

Earl Hunt y Jerry Carlson ofrecen 10 principios de diseño, análisis y presentación de informes que deben considerarse cuidadosamente al hacer o evaluar investigaciones sobre diferencias grupales (se centran en las diferencias de inteligencia, pero sus principios también se aplican a la investigación de las diferencias de atractivo). El documento completo se puede descargar aquí y esperamos poder ofrecer un conjunto de directrices para otros investigadores que decidan realizar investigaciones sobre este tema, así como para blogueros que decidan que quieren comunicar estos hallazgos a una audiencia general.

Como lo expresaron los investigadores:

"Cuando los científicos se ocupan de investigaciones que tienen relevancia para las políticas sociales inmediatas, como lo pueden hacer los estudios de las diferencias grupales, los científicos tienen el deber de ejercer un estándar de rigor científico más riguroso de lo que sería necesario cuando el objetivo de la investigación es únicamente para avanzar en la exploración dentro de la ciencia misma. No sostenemos, en ningún momento, que se debe prohibir cierto conocimiento sobre la base de que podría usarse de forma incorrecta. Argumentamos que cuando existe la posibilidad de que los hallazgos particulares se traduzcan rápidamente en debates públicos y decisiones de política, es deber del científico asegurarse de que esos hallazgos sean de la más alta calidad ".

Kanazawa no sigue estas pautas en todas sus publicaciones. Por ejemplo, en un documento sobre diferencias de raza en IQ, no solo comete varios errores teóricos, sino que también falla en considerar explicaciones alternativas. Por cierto, en ese documento en particular, también asumió que la tierra era plana.

La ciencia, cuando se hace correctamente, se autocorrige. La mala ciencia y las interpretaciones son reemplazadas por una ciencia de mejor calidad y conclusiones más sensatas y precisas. ¡Si desea analizar el conjunto de datos Add Health usted mismo, puede! Puede solicitar su propia copia del conjunto de datos aquí. Esperamos con interés una discusión más sensata sobre estos importantes temas, que impactan de manera importante en las vidas de muchas personas.

Puede descargar aquí un resumen más completo y más técnico de nuestro análisis.

© 2011 por Scott Barry Kaufman y Jelte Wicherts

Sigue a Scott en Twitter o Facebook . Contáctalo aquí !

[1] Algunos pueden objetar con nuestro uso de la palabra "exiguo" aquí para referirse a una correlación de .30. Deberíamos notar que estas correlaciones no son las correlaciones típicas encontradas en la psicología diferencial (p. Ej., IQ con alguna variable de personalidad), sino más bien un análisis del acuerdo inter-evaluador. Sobre la base de las tablas cruzadas, el Cohen's Kappa de Wave1-Wave2 para mujeres es .196. Según Landis y Koch, esto debe interpretarse como un "leve acuerdo". Kappa para Wave3-Wave4 es .099, incluso peor.

[2] Nuestro razonamiento aquí está tomado de la teoría de decisiones estándar de Pearson-Neyman. Si se supone que la hipótesis nula es verdadera para, digamos, 1000 pruebas potenciales, se espera que 50 de estas pruebas sean significativas en alfa = 05. Si concluimos sobre la base de p <.05 en estos 50 casos que efectivamente hay un efecto, estamos cometiendo errores de Tipo 1. Puede decirse que sus resultados pueden denominarse hallazgos "aleatorios" porque no esperamos que sean replicables simplemente porque la hipótesis nula es verdadera.