¿La mayoría de los hallazgos de psicología social publicados son falsos?

La psicología social está en crisis porque ya nadie sabe qué creer. Las revistas ahora están llenas de replicación de cebado fallida después de la replicación fallida de cebado. (Para los lectores legos, priming se refiere a la idea de que si hace que alguna idea, concepto, creencia, actitud o valor destaque de alguna manera, puede influir de forma generalizada en sus percepciones y comportamientos posteriores de maneras totalmente ajenas a su conciencia; a como "automaticidad" en el lenguaje de la psiquiatría social). Los estudios de cebado una vez tuvieron gran influencia en la psicología social, porque los estudios publicados mostraron asombrosos efectos dominantes de cebado. Cebar a menudo ocurre fuera de la conciencia, por lo que las cosas parecían mostrar que las personas no saben por qué están haciendo lo que hacen la mayor parte del tiempo. ¡Asombroso! Y si cree que es un reclamo falso, piense en La automaticidad del ser insoportable (si usted es un lector lego, solo búsquelo en Google Scholar).

Los supuestos estereotipos primarios supuestamente llevaron a las personas a caminar lentamente. Cebar dinero supuestamente llevó a las personas a estar menos dispuestas a ayudar. Exponer a los hombres a mujeres atractivas supuestamente llevó a un aumento en la asunción de riesgos y el consumo conspicuo. ¡La gente estaba fuera de su control! Adoptar posturas firmes no verbales asertivas ("poses de poder") supuestamente podría mejorar tu vida al mejorar tanto tu confianza como la forma en que la gente te trata. Pero todos estos hallazgos, y mucho más, han demostrado ser lo suficientemente difíciles de replicar que muchos científicos ahora los consideran dudosos en el mejor de los casos.

Create Meme
Fuente: Crear Meme

Y los problemas van más allá de las repeticiones fallidas de los estudios de preparación. La investigación de amenazas estereotipadas, que se interpreta ampliamente como que muestra que "eliminar la amenaza, y los puntajes de las pruebas en blanco y negro son iguales" nunca mostró tal cosa en realidad. La investigación de prejuicios implícitos, que ha sido ampliamente interpretada como que demuestra la existencia de prejuicios raciales generalizados, nunca ha demostrado que, por ejemplo, los puntajes de pruebas de asociación implícita que supuestamente reflejan prejuicios (puntuaciones superiores a 0) generalmente correspondan a un comportamiento discriminatorio (al menos un estudio demostró que corresponden al comportamiento igualitario). O, dicho de otro modo, algunos de los efectos más famosos e influyentes en la psicología social, especialmente los efectos obtenidos en los últimos 20 años, han sido cuestionados por la replicación fallida después de una replicación fallida y por revelaciones de metodológicas dudosas, estadísticas e interpretativas prácticas.

Y empeora antes de que mejore.

Parte I: La replicabilidad (Ir?) De la Psicología Social

Algunas de las pruebas más contundentes de la afirmación de que "la mayoría de las psicologías sociales son falsas" provienen de un único documento (Open Science Collaboration, 2015 publicado en Science) que examinó investigaciones publicadas en 2008 en varios campos de la psicología, incluida la psicología social.

Ese documento fue una colaboración de varios laboratorios que intentó replicar 52 estudios publicados en dos revistas de psicología social (Revista de Personalidad y Psicología Social y Ciencia Psicológica). Lo que "cuenta" como una "replicación exitosa" no es una ciencia resuelta. Lo que cuenta como "evidencia de que el efecto es real" no es ciencia establecida. Entonces usaron múltiples medidas. Dependiendo de los criterios, encontraron que entre el 25 y el 43% de los estudios replicaron o revelaron un verdadero efecto.

Hasta ahora, esto suena como "La mayoría de los hallazgos de la psicología social son falsos" es bastante seguro. Y podría ser. Pero no creo que esa conclusión general esté justificada por este estudio de replicación a gran escala.

Parte II: OSC 2015 es un gran estudio, pero no lo sobreinterpretemos

Aquí está la cosa clave que OSC NO hizo que hace que la inferencia "la mayoría de los hallazgos de la psicología social son falsas" no sea justificada:

No identificaron una población de estudios de psicología social (por ejemplo, desde 1950 o 1970 o incluso 1990), los seleccionaron al azar y luego intentaron replicarlos.

En cambio, primero restringieron los intentos de replicación a 2008. Luego crearon submuestras de estudios (por ejemplo, los primeros 20 artículos publicados en Psychological Science). Luego permitieron que sus equipos de replicación seleccionaran los documentos desde los cuales intentar una replicación. En general, por diseño, los últimos estudios en informes de múltiples estudios se seleccionaron para intentos de replicación. Más allá de eso, sin embargo, del informe publicado en Science, es imposible saber cómo los equipos de replicación seleccionaron qué papel replicar. Es posible que, de manera desproporcionada, los equipos seleccionaron artículos que informaban estudios que pensaban que era poco probable que se replicaran (no hay forma de saber más que encuestar a los más de 100 coautores de esas repeticiones, lo que no he hecho). Como mínimo, esto no se puede descartar.

De todos modos, a falta de un muestreo aleatorio de buena fe de los estudios durante un largo período de tiempo, no se puede llegar a una conclusión general sobre la replicabilidad de la psicología social sobre la base de este artículo. Diablos, uno no puede siquiera llegar a conclusiones claras sobre la replicabilidad de la psicología social publicada en 2008 a partir de este documento.

Por supuesto, estas limitaciones no significan que la psicología social sea segura. No significan que se sepa definitivamente que el estudio proporcionó resultados no representativos de la psicología social. Ciertamente significa que se publican muchas cosas difíciles de replicar.

Parte III: La replicación en la psicología social es difícil incluso cuando se sabe que el efecto es cierto

Jon Krosnick es psicólogo social / politólogo en Stanford, y también es reconocido internacionalmente como uno de los principales investigadores de encuestas en ciencias sociales. Una vez dirigió el American National Election Study, una encuesta nacionalmente representativa de puntos de vista políticos que ha estado sucediendo durante décadas, aparece rutinariamente en el NYTimes y ha recibido numerosos premios por su trabajo.

Hace unos años, recopiló datos de encuestas sobre casi 10.000 personas. Se identificaron una serie de efectos de encuesta bien conocidos como estadísticamente significativos en esta gran muestra (p. Ej., Efectos de orden, aquiescencia, etc.). A continuación, se examinaron submuestras de aproximadamente 500-1000 personas para determinar la frecuencia con la que las submuestras estadísticamente significativas mostrarían los mismos efectos.

A pesar de que los fenómenos en estudio fueron usualmente significativos en la muestra grande, las submuestras encontraron evidencia significativa del efecto solo la mitad del tiempo (los análisis todavía están en progreso y el número exacto de replicaciones para cada fenómeno está sujeto a cambios). Incluso si el 50% del número de "replicación" es solo un estadio pendiente de análisis finales, esto habla de las dificultades de la replicación, incluso con muestras grandes, e incluso sin prácticas de investigación cuestionables de ningún tipo.

Es decir, de alguna manera, son buenas noticias. Esto significa que, por ejemplo, cuando los estudios de muestras más pequeñas solo se replican 30% o 40% del tiempo, no es necesariamente evidencia de prácticas problemáticas rampantes. Puede ser simplemente un testimonio de los grandes efectos de la variabilidad del muestreo y los cambios menores en el contexto (por ejemplo, que se llevan a cabo en un estado o país diferente) o un procedimiento. Y hay más buenas noticias. Al menos con sus muestras grandes, los resultados preliminares del equipo de Krosnick sugieren que, si encontraron evidencia significativa del efecto o no, alrededor del 80% de los estudios no fueron significativamente diferentes entre sí. Una vez más, si el conteo final es 71% o 93% u 80%, ese es un nivel relativamente alto de replicación.

¿Porque es esto importante? Muestra cómo los caprichos de la variabilidad del muestreo pueden hacer bastante difícil detectar incluso un verdadero efecto. También significa que, tal vez, tenemos que reconsiderar nuestra comprensión de cuán frecuentemente debe replicarse un hallazgo para que sea creíble, y cómo podemos distinguir alguna vez un hallazgo creíble de uno increíble. Muchos científicos están trabajando solo en este tema y han desarrollado nuevas herramientas estadísticas para descubrir qué es creíble a partir de lo que no es (curvas p, índices de replicación, pruebas estadísticas para identificar y controlar los sesgos de publicación, etc.). La mayoría de esos métodos son, sin embargo, lo suficientemente nuevos como para pasar un tiempo antes de que sepamos cuál funciona mejor.

Parte IV: La replicabilidad de la psicología social

Algunas áreas de la psicología social son un desastre, especialmente las que involucran "preparación social" (consulte las referencias de enlaces a la discusión de artículos sobre las diversas crisis primarias y las fallas en la replicación). No digo que todos sean falsos, pero, con raras excepciones, no sé qué efectos de sensibilización social son creíbles y cuáles no. La preparación cognitiva no es un desastre. Durante mucho tiempo ha habido un trabajo excelente y fácilmente replicable sobre preparación cognitiva en la psicología cognitiva. Después de la exposición a la palabra "negro", las personas reconocen más rápidamente las presentaciones posteriores de la palabra "negro" (en comparación, por ejemplo, con otras palabras, como "verde" o "blasfemia").

En mi laboratorio, más de 30 años, he replicado cada uno de los siguientes fenómenos:

  • Estereotipos sesgan la forma en que las personas juzgan a un individuo cuando las personas carecen de mucha información (aparte de la membresía de categoría de estereotipo) sobre ese individuo
  • La gente juzga masivamente a los individuos en función de sus características personales y casi nada de los estereotipos, si las personas tienen información relevante sobre las características personales de ese individuo, por ejemplo, su personalidad, logros, comportamientos, etc.
  • Moderado a altos niveles de precisión en muchos estereotipos demográficos
  • Inexactitud generalizada en los estereotipos nacionales cuando se evalúa en función de los cinco grandes criterios de autoinforme de personalidad
  • Las expectativas de los maestros producen profecías autocumplidas en el aula, pero estos efectos tienden a ser débiles, frágiles y fugaces (pocos otros investigadores los describirían de esta manera, pero cuando se observan los hallazgos reales, esto es más o menos lo que casi todos tienen realmente encontrado).
  • Las expectativas de los maestros en su mayoría predicen el rendimiento del alumno porque esas expectativas son precisas, no autocumplidas.
  • No obstante, las expectativas de los maestros también sesgan sus propias evaluaciones de los estudiantes en un grado modesto.
  • La prominencia de la mortalidad aumenta el antisemitismo.
  • La autoconsistencia domina las reacciones cognitivas a la retroalimentación del desempeño; auto-mejora domina las reacciones afectivas a la retroalimentación de rendimiento
  • El error de atribución fundamental
  • Sesgos de auto-servicio
  • Sesgos de confirmación motivados políticamente

No descubrí estos fenómenos. Entonces mis réplicas constituyen evidencia independiente de que los fenómenos son reales. Sin embargo, ninguno de estos fueron réplicas directas. En lenguaje moderno, todas eran réplicas conceptuales. De hecho, esta distinción no estaba en mi mente cuando realicé esos estudios. Hace 25 años (o 15 o incluso 5), nadie hablaba de réplicas directas versus conceptuales, y daba por sentado que otras investigaciones habían encontrado un fenómeno, y me puse a ver si podía, también, generalmente al servicio de algunos otro esfuerzo de investigación (p. ej., Rosenthal y Jacobson, 1968 demostraron profecías autocumplidas inducidas experimentalmente; quería ver si las expectativas que los docentes desarrollaban por sí mismas, sin ser confundidas por los investigadores, también se autocumplían, lo estaban). A menudo reproduje los fenómenos de otros (más recientemente, completamos una réplica conceptual exitosa del estudio a favor / en contra del discurso de Castro / correspondencia de Jones y Harris, pero con estereotipos sexuales que limitan el comportamiento en lugar de las solicitudes de los investigadores). Ahora, la mayoría de estos no son los "temas candentes" de los últimos 20 años. Sin priming, sin prejuicios implícitos, sin poder posando, sin amenaza estereotipada. Muchos, aunque no todos, de estos hallazgos van acompañados de tamaños de efecto bastante grandes (que fue uno de los predictores del éxito de la replicación en el documento OSC, 2015).

Eso es solo en mi laboratorio. Contando solo cosas que conozco de otras personas, que han sido replicadas en más de un laboratorio independiente:

  • Las bases morales de Jon Haidt se replican.
  • La similitud de atracción es muy poderosa.
  • El prejuicio de derecha contra los grupos de izquierda y el prejuicio de izquierda contra los grupos de derecha se repite repetidamente.
  • La exageración de los estereotipos políticos se replica.
  • El prejuicio (desagrado / gusto por un grupo) generalmente predice todo tipo de prejuicios con más fuerza que los estereotipos (creencias sobre los grupos).
  • Exposición por encima de la probabilidad del azar en la persona basada en rebanadas delgadas de comportamientos replicados.
  • Las heurísticas de Kahneman y Tversky se replican en su mayoría.
  • Los sesgos de Ingroup se replican la mayor parte del tiempo.
  • Se autoevalúan autoevaluaciones de competencia, moralidad y salud.
  • En la percepción personal, las personas buscan información de diagnóstico más que información confirmatoria en casi todos los estudios que alguna vez le han dado a las personas la oportunidad de buscar información de diagnóstico.

Mientras uno esté hablando de resultados técnicos, en lugar de sobreinterpretaciones generalizadas de tales resultados:

  • los puntajes raciales de IAT mayores que cero se replican ampliamente;
  • los conservadores rutinariamente puntúan más alto en medidas comunes de rigidez y dogmatismo que los liberales
  • raza / etnia y diferencias de clase en logros académicos abundan.

Estoy seguro de que hay muchos más que no he enumerado.

Muchos hallazgos son fáciles de replicar.

Por otro lado, tampoco es una muestra aleatoria de temas. No estaría justificado concluir, a partir de mi experiencia personal o de esta lista fuera de lo común, que, de hecho, la psicología social está bien, muchas gracias. Y los problemas van más allá de la replicación, pero esa es una misiva para otro día.

¿Cómo sabremos qué, desde el vasto almacén de casi un siglo de investigación psicológica social, es realmente válido y creíble? ¿Cómo podemos distinguir los resultados dramáticos, que cambian el mundo, que son exageraciones, historias fabulosas, resultados falsos, ilusiones y, en última instancia, aceite de serpiente, de los dramáticos resultados que cambian el mundo en los que realmente podemos colgar nuestros sombreros y salir y cambiar el mundo con? Nadie lo sabe todavía, y cualquiera que diga que lo hace, sin haber sometido sus afirmaciones a pruebas escépticas como pcurves, índices de replicación e intentos de reproducción prerregistrados, simplemente le está vendiendo aceite de serpiente reenvasado.

Para mí, hay un ingrediente único y crucial para resolver esto: diversidad de puntos de vista y profundo escepticismo de los reclamos de los demás. Cuando las respuestas no se resuelven, la ciencia, y gran parte de nuestra ciencia está actualmente inestable, la diversidad y el escepticismo son herramientas esenciales para extraer la verdad del bombo publicitario, la señal del ruido y los resultados reales del cambio mundial del aceite de serpiente.

El pensamiento grupal y la deferencia hacia las "autoridades" científicas y hacia historias "científicas" repetidas que descansan sobre pies empíricos de firmeza poco clara es una amenaza significativa para la validez de la psicología social. Grandes dosis de humildad e incertidumbre, al menos con respecto a nuestras afirmaciones sobre la psicología social, parecen estar en orden. En ese espíritu, probablemente sea mejor que evitemos reclamos extremos, incluyendo "la mayoría de los hallazgos de la psicología social son falsos", a menos que sepamos que tienen fundamentos extremadamente sólidos de apoyo científico.

¿Quién sabía que Mark Twain era un científico? "No es lo que no sabes lo que te mete en problemas". Es lo que sabes con certeza que simplemente no es así ".

Referencias

Jones, EE, y Harris, VA (1967). La atribución de actitudes. Revista de Psicología Social Experimental, 3, 1-24.

Krosnick, Replicación JA. Charla presentada en la reunión de 2015 de la Sociedad de Personalidad y Psicología Social.

Loeb, A. (2014). Beneficios de la diversidad Naturaleza: Física, 10, 616-617.

Open Science Collaboration. (2015). Estimar la reproducibilidad de la ciencia psicológica. Ciencia, 349, aac4716. doi: 10.1126 / science.aac4716

Rosenthal, R., y Jacobson, L. (1968a). Pigmalión en el aula: expectativas de los maestros y desarrollo intelectual de los estudiantes. Nueva York: Holt, Rinehart y Winston.

Acceso fácil a recursos en línea sobre cebado problemático y otros estudios difíciles de replicar

Fallas de cebado recientes

Efectos de imprimación válidos e inválidos

Una replicación de cebado fallida temprana

Unicornios de Psicología Social

Unicorns psicológicos sociales: las replicaciones fallidas disipan los mitos científicos>

¿Está Power Posing Just Hype?