Fraude, divulgación y grados de libertad en la ciencia

Señalo en The Folly of Fools que la ciencia se autocorrige de forma natural: requiere experimentos, recopilación de datos y modos de análisis para ser completamente explícitos, para ser mejor replicados y, por lo tanto, verificados o falsificados, pero donde los humanos o el comportamiento social están involucrados , la aparente importancia de los resultados y la dificultad de verificar su veracidad aceleran la tentación del progreso rápido e ilegítimo. Recientemente se han descubierto casos de fraude deliberado en el estudio de la cognición de los primates (Harvard), los beneficios para la salud del resveratrol (UConn) y numerosos hallazgos de la psicología social (Tilburg U, Países Bajos). Dedicaré algunos blogs posteriores a otros aspectos del fraude en la ciencia, pero comenzaré aquí con un análisis muy inteligente del fraude estadístico y la falta de intercambio de datos en los artículos de psicología publicados en los Estados Unidos. Este y otro trabajo relacionado sugieren que el problema del fraude en la ciencia es mucho más amplio de lo que podrían sugerir los pocos casos de fraude deliberado a gran escala.

Los expertos y coautores hicieron uso de una pequeña característica de todos los artículos publicados en las más de 50 revistas de la Asociación Americana de Psicología (APA). Los autores de estos artículos se comprometen por contrato a compartir sus datos brutos con cualquier persona que lo solicite. , para intentar la replicación. Sin embargo, un trabajo anterior de este mismo grupo mostró que para 141 artículos en cuatro publicaciones principales de APA, el 73 por ciento de los científicos no compartió datos cuando se le preguntó. Dado que, como señalan, se sabe que los errores estadísticos son sorprendentemente comunes y que los resultados estadísticos a veces son inexactos y los científicos a menudo motivados para tomar decisiones durante el análisis estadístico que están sesgados en su propia dirección, tenían curiosidad por saber si cualquier conexión entre la falta de informes de datos y evidencia de sesgo estadístico.

Aquí es donde obtuvieron un resultado dramático. Limitaron su investigación a dos de las cuatro revistas cuyos científicos tenían una probabilidad ligeramente mayor de compartir datos y la mayoría de cuyos estudios fueron similares al tener un diseño experimental. Esto les dio 49 papeles. Una vez más, la mayoría no compartió ningún dato, sino que se comportó como una parodia de los académicos. De los encuestados, el 27 por ciento no respondió a la solicitud (o dos recordatorios de seguimiento) -primero, y mejor, línea de autodefensa, silencio total- el 25 por ciento prometió compartir datos pero no lo hizo después de seis años y El 6 por ciento afirmó que los datos se perdieron o que no hubo tiempo para escribir un libro de códigos. En resumen, el 67 por ciento de los supuestos científicos evitaron el primer requisito de la ciencia: todo lo explícito y disponible para la inspección de otros.

¿Hubo algún sesgo en todo este incumplimiento? Por supuesto que hubo. Las personas cuyos resultados estaban más cerca del punto de corte fatal de p = 0.05 tenían menos probabilidades de compartir sus datos. De la mano, eran más propensos a cometer errores estadísticos elementales a su favor. Por ejemplo, para los siete documentos en los que las estadísticas correctamente calculadas hicieron que los hallazgos no fueran significativos (10 errores en total) ninguno de los autores compartió los datos. Esto es consistente con datos anteriores que muestran que los autores tardaron mucho más tiempo en responder a las consultas cuando la inconsistencia en los resultados informados afectaba la importancia de los resultados (¡donde las respuestas no se compartían!). De un total de 1148 pruebas estadísticas en los 49 artículos, el 4 por ciento fue incorrecto, basándose únicamente en las estadísticas de resumen de los científicos, y un 96 por ciento de estos errores fueron a favor de los científicos. Los autores dirían que sus resultados merecían una "prueba de una cola" (más fácil de lograr) pero ya habían establecido una prueba de una sola cola, de modo que a medida que la redujeron a la mitad, crearon una "prueba de media cola". O corrieron una prueba de una sola línea sin mencionar esto a pesar de que una prueba de dos colas era la adecuada. Y así. El trabajo por separado muestra que solo un tercio de los psicólogos afirman haber archivado sus datos; ¡el resto hace imposible el reanálisis casi desde el principio! (Tengo 44 años de datos de lagartos 'archivados'-sea mi invitado.) Es probable que prácticas similares estén entrelazadas con la renuencia generalizada a compartir datos en otras "ciencias" desde la sociología a la medicina. Por supuesto, esta malversación estadística es presumiblemente solo la punta del iceberg, ya que en los datos y análisis no revelados se esperan aún más errores.

La profundidad del problema quedó bellamente revelada en un artículo reciente de Simmons y coautores. El mensaje para llevar a casa está en (parte de) el título: "La flexibilidad no divulgada en la recopilación y análisis de datos permite presentar cualquier cosa como importante". Y significan cualquier cosa. En un estudio falso que corrieron sobre temas reales, lograron demostrar que escuchar un tipo de música cambiaba la fecha de nacimiento en comparación con escuchar a otro. ¿Cómo lograron este sorprendente y muy importante resultado? Al introducir la edad del padre de cada sujeto como una variable ficticia destinada a "controlar la variación en la edad de referencia entre los participantes". Probablemente la estratagema más común y efectiva es continuar recopilando datos hasta que el resultado sea significativo, luego detenerlo. Los autores tienen una gran cantidad de "grados de libertad" en relación con el análisis y la presentación de datos, cuyos títulos les brindan amplias oportunidades, no para "masajear" sus datos, como a los científicos les gusta decir, sino para crear la verdad a partir de la aleatoriedad.

Entonces, hay buenas noticias y malas noticias. Lo malo es que hay una amplia libertad para el engaño estadísticamente significativo y una gran motivación para producir, y luego ocultarlo. Esto puede operar en diversos grados de conciencia. Al mismo tiempo, la ciencia se autocorrige, los estudios citados son buenos ejemplos. Tener una ciencia de la verdad, especialmente con respecto a la vida social humana, requiere una ciencia de mentiras, incluidas nuevas metodologías para exponerlas.

Wicherts, JM, Bakker, M y Mlenar, D. 2011. La voluntad de compartir datos de investigación se relaciona con la solidez de la evidencia y la calidad de los informes de los resultados estadísticos. PLoS One: 6: 1-7.

Simmons, JP, Nelson, LD y Simonsohn, U. 2011. Psicología falsamente positiva: la flexibilidad no divulgada en la recopilación y análisis de datos permite presentar algo tan significativo. Psychological Science 22: 1359-1366.