Replicaciones impuras

La replicación es la columna vertebral de la ciencia real. Mientras que las ciencias duras como la física y la química han sabido por mucho tiempo del valor de la replicación y la han practicado, los psicólogos han planteado recientemente este tema. Antes, los investigadores sabían por "boca a boca" cuyos hallazgos eran reproducibles y los que no. Por lo tanto, es loable que este importante tema pase a primer plano.

En los pocos años desde que se tomó la replicación en serio, ha habido mucho progreso. Por ejemplo, las primeras réplicas publicadas (y la mayoría falladas) fueron estudios únicos, mientras que los esfuerzos de colaboración recientes informaron múltiples estudios experimentales para hacerlos más representativos porque un solo experimento de replicación fallido pudo haberlo hecho por casualidad y, por lo tanto, es vacuo.

Hace unos días, se publicó una nueva falla de replicación, así como una respuesta del primer autor del estudio original, que plantea dudas sobre el valor de los estudios de replicación (consulte el informe y la respuesta de Strack aquí).

El estudio de lápiz y su replicación

Flickr/CC 2.0
Fuente: Flickr / CC 2.0

Sin embargo, los problemas restantes que tienen que ver con la falta de sofisticación teórica pueden ejemplificarse mediante la reproducción de un experimento sobre la retroalimentación corporal de la expresión emocional sobre los juicios afectivos.

En este experimento de Fritz Strack, Leonard Martin y Sabine Stepper, los participantes deben sostener un lápiz en una de dos posiciones, ya sea entre los dientes (lado izquierdo de la imagen) o entre los labios (a la derecha).

Si bien sostener el lápiz entre los dientes activa los músculos relacionados con el afecto positivo, sostener el lápiz entre los labios activa los músculos relacionados con los sentimientos negativos. La ventaja de este procedimiento es que los participantes no se dan cuenta de que están sonriendo o haciendo pucheros. Los participantes tuvieron que calificar la gracia de las caricaturas de Gary Larson The Far Side .

Strack y sus colegas encontraron que los participantes que sostenían el lápiz entre los dientes y, por lo tanto, sonreían, calificaban los dibujos animados como más divertidos que los participantes que sostenían el lápiz entre los labios, lo que les hacía fruncir el ceño. Este hallazgo brinda apoyo a una teoría de la emoción de la retroalimentación facial en el sentido de que muestra que simular una expresión emocional en tu rostro te hace sentir la emoción. El estudio se ha convertido en un clásico de citas y apareció hace algunos años en la página principal de Science .

Un grupo de investigadores se embarcó en un intento de replicación masiva. Diecisiete laboratorios diferentes repitieron este experimento y analizaron si podían reproducir el efecto. El veredicto fue claro: no pudieron. Ninguno de los experimentos alcanzó el tamaño del efecto que tenía el estudio original, y en promedio, el efecto fue cercano a cero. En Twitter, un investigador comentó: "Otro hallazgo clásico de la psicología social muerde el polvo".

La polémica en Twitter me impulsó a responder, y se produjo una discusión que fue tan buena como puede ser cuando su argumento no puede exceder los 140 caracteres. Como necesito más espacio para hacer el argumento, decidí escribir esta publicación en el blog, sobre todo porque este y otros estudios bajo escrutinio son relevantes para el sentimiento crítico.

Me voy a centrar en el impacto teórico de las fallas de replicación y cómo tratar las posibles impurezas que amenazan la validez de un estudio de replicación.

La pregunta es, ¿este efecto clásico realmente "muerde el polvo"? En su respuesta, Fritz Strack enumeró varios puntos que hacen que la replicación sea dudosa.

Por ejemplo, 14 de los 17 estudios se realizaron con estudiantes de pregrado, a pesar de que el estudio es ampliamente citado en libros de texto para precisamente esta audiencia. A diferencia de los estudiantes que participaron en el estudio de Strack para quienes era imposible conocer el hallazgo, los estudiantes pudieron haber leído sobre el estudio, incluso si posiblemente no lo recordaban al participar en el experimento.

De hecho, los 14 estudios realizados con estudiantes mostraron un efecto nulo mientras que los tres estudios con otros participantes mostraron un efecto general en la dirección del estudio original. Además, una cámara se dirigió a los participantes para controlar su expresión facial. Decenas de investigaciones mostraron que apuntar con una cámara a las personas o mirarlas por otros medios cambia su forma de pensar y su comportamiento; ¿por qué no sus juicios sobre la gracia de los dibujos animados? Como el efecto del lápiz es sutil, las pequeñas "impurezas" en el experimento pueden oscurecer el efecto.

Cuando se trata de impurezas, creo que los psicólogos pueden beneficiarse del pensamiento científico en química. El gran problema que tienen los químicos es la pureza de sus sustancias. Incluso pequeñas impurezas pueden evitar reacciones o cambiar los resultados. Lo principal que los químicos a menudo tienen que hacer es purificar sus sustancias para garantizar el éxito de sus experimentos.

El trabajo de los investigadores psicológicos es aún más difícil porque no llevan a cabo su investigación en sistemas cerrados con condiciones estándar claramente definidas. Los sistemas en psicología son resultados abiertos y experimentales susceptibles a sutiles efectos contextuales.

Esto significa que cambios minúsculos pueden cambiar un efecto, un hecho reconocido por los investigadores de replicación. Por ejemplo, los participantes de una cultura diferente pueden interpretar instrucciones de manera diferente y, por lo tanto, el experimento puede producir diferentes resultados.

No es de extrañar que las fallas de replicación en el gran proyecto Open Science Framework estuvieran relacionadas con la cantidad de temas que dependían de la cultura. Cuanto más específico era el efecto de la cultura, peor era la posibilidad de que se replicara en el estudio abierto de ciencias (ver Van Bavela et al, 2016).

¿Es el estudio de lápiz parte de un programa de investigación degenerativa?

Volvamos al estudio del lápiz. Strack proporcionó algunos argumentos que levantan algunas dudas razonables sobre la "pureza" de los estudios de replicación. Algunos psicólogos argumentaron que se trata de "SNARKing: engañosos detalles después de conocerse los resultados". Otro comentarista dijo: "Lo llamamos 'criticar después de conocer los resultados'". Lakatos lo llama línea de investigación degenerativa.

Estos comentaristas señalan que si intentas replicar un efecto y no lo consigues, dar con algunas explicaciones post hoc no ayuda. Primero, siempre puedes encontrar algunas excusas por las cuales un experimento no funcionó. En segundo lugar, y más importante aún, un efecto no se ve robusto cuando los cambios sutiles eliminan el efecto. Los comentaristas en Twitter citaron a Lakatos que esa línea de investigación está en retirada, es degenerativa.

El uso de la línea de investigación degenerativa de Lakatos está equivocada en el caso de fallas de replicación. Lakatos no pensó en fallas de replicación, sino en nuevos experimentos que contradicen una teoría. Proponer explicaciones para defender su teoría, a menudo en forma de suposiciones auxiliares que complican su teoría, es improductivo e indica que su programa de investigación está disminuyendo.

Sin embargo, esto no es lo que sucedió con la teoría de la retroalimentación facial que fue respaldada por el experimento de Strack. Nadie presentó datos que contradijeran la teoría de la retroalimentación facial. Los autores del estudio de replicación simplemente no pudieron reproducir los resultados de uno de los estudios de muestra que respaldaban la teoría. Sin embargo, hay otros experimentos que apoyan la teoría de la retroalimentación facial. La falla en replicar un estudio, incluso si es el más conocido, no cambia mucho cuando se trata de la teoría. No hay señal de un programa de investigación degenerativa.

Por qué la falla de replicación no amenaza la teoría de la retroalimentación facial

Hay otra distinción que los psicólogos deben prestar atención cuando hablan de fallas de replicación. Supongamos que está estudiando una intervención para hacer felices a la gente a través de comentarios faciales, por ejemplo, sosteniendo un lápiz entre los dientes. Usted publica un estudio y recomienda esta intervención para su uso en las escuelas, en el trabajo y en el hogar. Usted hace el argumento universal de que esta intervención será efectiva en la mayoría de las circunstancias.

Acompaña a 17 replicadores que no pueden reproducir los resultados. Al hacer un argumento universal, la falla en replicar es un golpe mortal porque no existe tal efecto global y robusto. Incluso replicar el efecto con un tamaño de efecto más pequeño dañaría la relevancia del estudio original si hacía que el reclamo fuera un efecto universal.

Sin embargo, esto no es lo que Strack y sus colegas tenían en mente. Nunca reclamaron la universalidad del efecto, pero hicieron el argumento existencial de que hay ejemplos de la experiencia de los estados afectivos a través de la retroalimentación facial.

Acompaña a 17 replicadores que no pueden reproducir los resultados. Como Strack y sus colegas hicieron un argumento existencial, la falla en la replicación amenaza la confiabilidad del estudio y la validez de la teoría (si este fuera el único estudio que la respalda) solo cuando no queda explicación por la cual el estudio de replicación falló.

Esto es similar a los químicos que buscan primero las impurezas en su experimento antes de dudar de que puedan replicar un resultado. Tal discusión no tiene nada que ver con los programas de investigación minuciosa y degenerativa, sino con un discurso científico para encontrar el método que funciona, si hay uno.

Como hemos visto, hay dos explicaciones que generan dudas sobre la validez del estudio de replicación, el cuerpo del estudiante y la cámara frente a la cara de los participantes.

La falla de la replicación es informativa porque muestra que se trata de un efecto sutil, lo que hace explícito un hecho que los expertos sabían desde el principio, y eso es algo bueno.

Sin embargo, la falla en replicar este experimento no amenaza la teoría, por los motivos descritos anteriormente. Se debe tener en cuenta que probablemente sea mucho más fácil obtener una falla de replicación que un efecto original estable que a menudo se obtiene después de muchas pruebas piloto y ajustes finos.

Finalmente, encontrar un efecto es una buena noticia para un argumento existencial, incluso si el tamaño del efecto es mucho más débil que el estudio original. Desde el punto de vista de una teoría, los tamaños del efecto son solo informativos cuando los científicos hacen un argumento universal o cuando quieren derivar implicaciones prácticas de un estudio.

Mientras el argumento se refiera a la mera existencia de un mecanismo o efecto, los tamaños del efecto no importan.

Conclusión

La falla de replicación solo amenaza una teoría (1) cuando este es el único estudio que respalda la teoría; (2) si hace un reclamo universal. Las réplicas actuales a menudo eligen un estudio de muchos que respaldan una teoría, y eligen estudios que respaldan un argumento existencial.

Muchas fallas de replicación son solo eso: fallas de replicación de estudios únicos. No tienen mucho impacto en la teoría, y la discusión sobre las impurezas que amenazan la validez de un estudio de replicación no debe tomarse como una excusa débil, sino como un punto de partida para nuevos y mejores intentos de replicación.

El mensaje final es que los psicólogos tienen que distinguir entre la reproducción de estudios que pretenden mostrar un efecto universal con implicaciones prácticas y estudios que constituyen el argumento existencial sobre un determinado mecanismo.

La mayoría de los estudios experimentales sobre afecto, cebado o encarnación que no se han replicado son de este último tipo. Como la teoría está respaldada principalmente por otra evidencia, la falla en reproducir sus resultados no tiene mucha relevancia para la teoría que se suponía que estos estudios respaldarían.

La publicación del blog provocó mucho debate en las redes sociales. Vea la discusión en Facebook aquí (Grupo de Discusión de Métodos Psicológicos) y aquí (PsychMAP).

Para el hallazgo de que la reproducibilidad es sensible al contexto:

Van Bavela, JJ, Mende-Siedleckia, P, J. Bradya, W. y Reinero, DA (2016). Sensibilidad contextual en la reproducibilidad científica. PNAS, 113, 6454-6459.

La hipótesis de la retroalimentación facial se describe en el Capítulo 5 de:

Reber, R. (2016). Sentimiento crítico Cómo usar los sentimientos estratégicamente. Cambridge: Cambridge University Press.

Se pueden encontrar más referencias en los enlaces o referencias anteriores.

Crédito de la imagen: figura disponible en http://tinyurl.com/zm7p9l7 bajo licencia CC
https://creativecommons.org/licenses/by/2.0/.