Problema de replicación de investigación de psicología

Por ahora, muchos de ustedes sin duda han oído hablar del proyecto de reproducibilidad, donde 100 hallazgos psicológicos fueron sometidos a intentos de replicación. En caso de que no esté familiarizado con él, los resultados de este proyecto fueron menos que un endoso resonante de la investigación en el campo: de las 89 replicaciones esperadas, solo se obtuvieron 37 y el tamaño promedio de los efectos disminuyó drásticamente; La investigación de la psicología social en particular parecía especialmente mala a este respecto. Esto sugiere que, en muchos casos, uno estaría bien atendido al tomar muchos hallazgos psicológicos con un par de granos de sal.

Naturalmente, esto lleva a muchas personas a preguntarse si hay alguna forma en que puedan estar más seguros de que un efecto es real , por así decirlo. Un medio posible a través del cual se puede reforzar su confianza es si la investigación en cuestión contiene o no réplicas conceptuales.

A lo que se refiere esto es a casos en los que los autores de un manuscrito informan los resultados de varios estudios diferentes que pretenden medir la misma cosa subyacente con diversos métodos; es decir, están estudiando el tema A con los métodos X, Y y Z. Si todos estos resultan positivos, debería estar más seguro de que un efecto es real. De hecho, he tenido un documento rechazado más de una vez por solo contener un solo experimento. Las revistas a menudo quieren ver varios estudios en un artículo, y esa es probablemente una de las razones por las cuales: un solo experimento es seguramente menos confiable que varios.

Flickr/Michael Caroe Andersen
No va a ninguna parte, pero al menos lo hace de manera confiable
Fuente: Flickr / Michael Caroe Andersen

De acuerdo con la explicación desconocida del moderador de la falla de replicación, los hallazgos de la investigación psicológica son, en esencia, a menudo inconstantes. Algunos hallazgos pueden depender de la hora del día en que se tomaron las mediciones, el país de la muestra, algún detalle particular del material de estímulo, si el experimentador es un hombre o una mujer; lo que sea En otras palabras, es posible que estos efectos publicados sean reales, pero solo ocurran en contextos bastante específicos de los cuales no estamos conscientes; es decir, están moderados por variables desconocidas. Si ese es el caso, es poco probable que algunos esfuerzos de replicación tengan éxito, ya que es bastante improbable que todos los moderadores únicos, desconocidos y no apreciados se repliquen también. Aquí es donde entran las réplicas conceptuales: si un documento contiene dos, tres o más intentos diferentes de estudiar el mismo tema, deberíamos esperar que el efecto que presentan sea más probable que se extienda más allá de un conjunto muy limitado de contextos y se replique mas facilmente

Esa es una hipótesis halagadora para explicar estas fallas de replicación; simplemente no hay suficiente repetición prepublicación, por lo que los hallazgos limitados se publican como si fueran más generalizables. La hipótesis menos halagadora es que muchos investigadores, a falta de una palabra mejor, hacen trampa al emplear tácticas de investigación deshonestas. Estas tácticas pueden incluir la formulación de hipótesis después de recopilar los datos, solo recopilar participantes hasta que los datos indiquen lo que los investigadores quieren y luego detenerlos, dividir las muestras en diferentes grupos hasta que se descubran las diferencias, y así sucesivamente.

También está la notoria cuestión de que las publicaciones solo publican resultados positivos en lugar de negativos (creando un gran incentivo para hacer trampa, ya que el castigo por hacerlo es casi inexistente siempre y cuando no solo estés inventando los datos). Es por estas razones que requerir el prerregistro de la investigación, que establece explícitamente lo que se va a ver antes de tiempo, arroja resultados positivos marcadamente. Si la investigación no logra replicarse porque el sistema está siendo engañado, más réplicas internas (las de los mismos autores) realmente no ayudan mucho cuando se trata de predecir replicaciones externas (aquellas realizadas por terceros). Las réplicas internas solo brindan a los investigadores la capacidad de informar múltiples intentos de hacer trampa.

Estas dos hipótesis hacen predicciones diferentes con respecto a los datos del proyecto de reproducibilidad antes mencionado: específicamente, la investigación que contiene réplicas internas debería ser más probable que se replique con éxito si la hipótesis del moderador desconocido es precisa. Ciertamente, sería una situación extraña desde la perspectiva de que "este hallazgo es verdadero" si las reproducciones conceptuales múltiples no fueran más probables de ser reproducibles que los trabajos de estudio único. Sería similar a decir que los efectos que se han replicado no son más propensos a replicarse posteriormente que los efectos que no lo han sido. Por el contrario, la hipótesis de hacer trampa (o, más educadamente, la hipótesis de prácticas de investigación cuestionables) no tiene ningún problema con la idea de que las réplicas internas puedan resultar tan replicables externamente como los trabajos de estudio único; engañar a un entendido tres veces no significa que sea más probable que sea verdad que engañarlo una vez.

Flickr/vozach1234
No es hacer trampa; es solo una "estrategia de prueba cuestionable"
Fuente: Flickr / vozach1234

Esto me lleva a un nuevo artículo de Kunert (2016) que reexaminó algunos de los datos del proyecto de reproducibilidad. De los 100 documentos originales, 44 contenían replicaciones internas: 20 contenían solo una replicación, 10 se replicaron dos veces, 9 se replicaron 3 veces y 5 contenían más de tres. Estos se compararon con los 56 documentos que no contenían replicaciones internas para ver cuál posteriormente se replicaría mejor (según se midió al lograr significancia estadística). Resultó que los documentos con replicaciones internas se replicaban externamente aproximadamente el 30% del tiempo, mientras que los documentos sin replicación interna replicaban externamente aproximadamente el 40% del tiempo. No solo los documentos reproducidos internamente no fueron sustancialmente mejores, sino que en realidad fueron un poco peores en ese sentido. Se llegó a una conclusión similar con respecto al tamaño del efecto promedio: los papeles con replicaciones internas no eran más propensos a contener posteriormente un tamaño de efecto más grande, en relación con los documentos sin dichas repeticiones.

Es posible, por supuesto, que los documentos que contienen réplicas internas sean diferentes a los documentos que no contienen dichas réplicas. Esto significa que podría ser posible que las réplicas internas sean realmente buenas, pero sus efectos positivos están siendo superados por otros factores negativos. Por ejemplo, alguien que propone una hipótesis particularmente novedosa puede inclinarse a incluir más réplicas internas en su trabajo que alguien que estudia una establecida; el último investigador no necesita más repeticiones en su artículo para publicarlo porque el efecto ya ha sido replicado en otro trabajo.

Para examinar este punto, Kunert (2016) hizo uso de los 7 predictores de reproducibilidad identificados del Open Science Collaboration: campo de estudio, tipo de efecto, valor P original, tamaño del efecto original, poder de replicación, sorprendente efecto original y el desafío de llevar a cabo la replicación – para evaluar si el trabajo replicado internamente difiere de manera notable de la muestra no internamente replicada. Como resultado, las dos muestras fueron bastante similares en general en todos los factores excepto uno: campo de estudio. Los efectos replicados internamente tienden a provenir de la psicología social con mayor frecuencia (70%) que la psicología cognitiva (54%). Como mencioné antes, los documentos de psicología social tienden a replicarse con menos frecuencia. Sin embargo, el efecto del moderador desconocido no fue particularmente bien soportado para ninguno de los campos cuando se examinaron individualmente.

En resumen, entonces, los documentos que contienen réplicas internas no tenían más probabilidades de funcionar bien cuando se trataba de replicaciones externas que, en mi opinión, sugieren que algo anda muy mal en el proceso en algún lugar. Quizás los investigadores están haciendo uso de su libertad para analizar y recopilar datos según lo consideren oportuno a fin de ofrecer las conclusiones que desean ver; quizás las revistas publican preferentemente los hallazgos de las personas que tuvieron suerte, en relación con aquellos que lo hicieron bien. Estas posibilidades, por supuesto, no son mutuamente excluyentes. Ahora supongo que uno podría continuar argumentando que algo así como "los artículos que contienen réplicas conceptuales tienen más probabilidades de estar haciendo algo diferente, relativo a los trabajos con un solo estudio", lo que podría explicar la falta de fuerza proporcionada. mediante réplicas internas, y lo que sea que ese "algo" pueda no ser directamente aprovechado por las variables consideradas en el documento actual. En esencia, tal argumento sugeriría que hay moderadores desconocidos hasta el final.

Flickr/ynnil
"… y esa tortuga se encuentra en el caparazón de una tortuga aún más grande …"
Fuente: Flickr / ynnil

Si bien es cierto que los resultados actuales no excluyen esa explicación, no debe tomarse como una especie de postura predeterminada sobre por qué esta investigación no logra replicarse. La explicación de "los investigadores están engañando" me parece un poco más plausible en esta etapa, dado que no hay muchas otras explicaciones obvias de por qué los documentos aparentemente replicados no son mejores para la replicación. Como Kunert (2016) lo dice claramente:

Este informe sugiere que, sin cambios generalizados en la ciencia psicológica, será difícil distinguirlo de las observaciones informales, las anécdotas y las conjeturas.

Esto nos lleva a la cuestión de qué se puede hacer sobre el tema. Hay formas procedimentales de tratar de abordar el problema, como la recomendación de Kunert (2016) para lograr que las revistas publiquen artículos independientes de sus resultados, pero mi enfoque ha sido, y sigue siendo, sobre los aspectos teóricos de la publicación. Demasiados artículos en psicología se publican sin ninguna aparente necesidad de que los investigadores expliquen sus hallazgos en un sentido significativo; en su lugar, por lo general, solo reafirman y etiquetan sus hallazgos, o postulan alguna función biológicamente inverosímil para lo que encontraron (como, "X hace que las personas se sientan bien" o "las tareas de autocontrol son drenajes metabólicos pesados"). Sin la aplicación seria y consistente de la teoría evolutiva a la investigación psicológica, se seguirán publicando efectos inverosímiles y, posteriormente, no se replicarán porque, de otro modo, hay poca forma de saber si un hallazgo tiene sentido. Por el contrario, considero plausible que los efectos poco probables puedan ser vistos con mayor claridad, por los revisores, los lectores y los replicadores, si todos están expresados ​​dentro del mismo marco teórico; Aún mejor, los problemas en el diseño se pueden identificar y rectificar más fácilmente al considerar la lógica funcional subyacente, lo que lleva a una investigación futura productiva.

Referencias: Kunert, R. (2016). Las réplicas conceptuales internas no aumentan el éxito de la replicación independiente. Revisión psicológica del boletín , DOI 10.3758 / s13423-016-1030-9