Count The Hits; No las señoritas

En varios momentos de nuestras vidas, todos hemos leído o nos han contado anécdotas sobre cómo alguien cambió algo de su vida. Algunos de estos (o al menos variaciones de ellos) probablemente suenan familiares: "Corté el pan de mi dieta y de repente me sentí mucho mejor"; "Amy hizo una fortuna trabajando desde casa vendiendo pastillas para adelgazar en línea"; "Después de que los doctores no supieran qué pasaba conmigo, comencé a tomar este té y mi infección desapareció de repente". El objetivo de tales historias es intentar establecer un vínculo casual, en estos casos: (1) comer pan te hace sentir mal, (2) vender pastillas para adelgazar es una buena forma de ganar dinero, y (3) el té es útil para combatir infecciones Algunas o todas estas afirmaciones pueden ser ciertas, pero el verdadero problema con estas historias es la escasez de datos en que se basan. Si desea estar más seguro acerca de esas declaraciones, desea más información. Por supuesto; es posible que se haya sentido mejor después de beber ese té, pero ¿qué hay de las otras 10 personas que bebieron té similar y no vieron ningún resultado? ¿Qué hay de todas las otras personas que venden pastillas para adelgazar que estaban en el agujero financiero desde el primer día y nunca se salieron de él porque en realidad es una estafa? Si desea acercarse a la comprensión del valor de verdad de esas declaraciones, debe considerar los datos como un todo; ambas historias de éxito e historias de fracaso. Sin embargo, las historias de alguien que no se enriquece vendiendo pastillas para adelgazar no son tan conmovedoras, por lo que no ven la luz del día; al menos no inicialmente Esta faceta de anécdotas fue ignorada por The Onion hace varios años (y Clickhole tuvo su propia versión más recientemente).

Flickr/Lloyd Morgan
"Al principio falló, pero con algunas ideas positivas, continuó fracasando una y otra vez"
Fuente: Flickr / Lloyd Morgan

Estas anécdotas a menudo intentan centrar la atención en casos exitosos (éxitos) sin tener en cuenta los fracasados ​​(errores), lo que da como resultado una imagen sesgada de cómo van a funcionar las cosas. No nos acercan mucho más a la verdad. A la mayoría de las personas que crean y consumen investigación en psicología les gustaría pensar que los psicólogos van más allá de este tipo de anécdotas y generan información útil sobre cómo funciona la mente, pero últimamente se han generado muchas preocupaciones sobre cuánto más avanzan en promedio. en gran medida debido a los resultados del proyecto de reproducibilidad. Se han planteado numerosas cuestiones sobre la forma en que se lleva a cabo la investigación psicológica: en la defensa de posiciones políticas y sociales particulares (que distorsiona diseños experimentales e interpretaciones estadísticas) o las formas selectivas en que se manipulan o informan datos para llamar la atención sobre datos exitosos sin reconocer las predicciones fallidas. El resultado ha sido un gran número de falsos positivos y exagerados reales que aparecen en la literatura.

Si bien estas preocupaciones están justificadas, es difícil cuantificar el alcance de los problemas. Después de todo, muy pocos investigadores van a salir y dicen que manipularon sus experimentos o datos para encontrar los resultados que querían porque (a) solo dañarían sus carreras y (b) en algunos casos, ni siquiera son conscientes de que lo están haciendo, o que lo que están haciendo está mal. Además, debido a que la mayoría de las investigaciones psicológicas no están registradas previamente y los hallazgos nulos generalmente no se publican, descubrir lo que los investigadores esperaban encontrar (pero no lo hicieron) se convierte en una tarea difícil solo leyendo la literatura. Afortunadamente, un nuevo documento de Franco et al. (2016) aporta algunos datos sobre la cuestión de la cantidad de notificaciones insuficientes. Si bien estos datos no serán la última palabra sobre el tema de ninguna manera (en gran parte debido a su pequeño tamaño de muestra), proporcionan algunos de los primeros pasos en la dirección correcta.

Franco et al (2016) informan sobre un grupo de experimentos de psicología cuyos cuestionarios y datos se pusieron a disposición del público. Específicamente, estos provienen de los Experimentos de Tiempo Compartido para las Ciencias Sociales (TESS), un programa NSF en el cual los experimentos en línea están integrados en encuestas de población representativas a nivel nacional. Los investigadores que usan TESS enfrentan límites estrictos en el número de preguntas que pueden hacer, según nos dicen, lo que significa que debemos esperar que limiten sus preguntas a las más teóricas. En otras palabras, podemos estar bastante seguros de que los investigadores tenían algunas predicciones específicas que esperaban probar para cada condición experimental y medida de resultado, y que estas predicciones se realizaron antes de obtener los datos. Franco et al (2016) fueron capaces de rastrear los estudios TESS a través de las eventuales versiones publicadas de los documentos para ver qué manipulaciones experimentales y resultados fueron y no fueron informados. Esto proporcionó a los autores con un conjunto de 32 experimentos de psicología semi-preregistered para examinar para informar sesgos.

Flickr/Pat Kight
Una pequeña muestra que generalizaré imprudentemente a toda la investigación de psicología
Fuente: Flickr / Pat Kight

El primer paso fue comparar el número de condiciones experimentales y variables de resultado que estaban presentes en los estudios TESS con el número que finalmente apareció en los manuscritos publicados (es decir, ¿los autores informaron lo que hicieron y lo que midieron?). En general, el 41% de los estudios TESS no informaron al menos una de sus condiciones experimentales; mientras que hubo un promedio de 2.5 condiciones experimentales en los estudios, los artículos publicados solo mencionaron un promedio de 1.8. Además, el 72% de los artículos no informaron todas sus variables de resultados; mientras que hubo un promedio de 15.4 variables de resultado en los cuestionarios, los informes publicados solo mencionaron 10.4 Tomados en conjunto, solo alrededor de 1 de cada 4 reportaron todo lo que hicieron y lo que midieron. Como era de esperar, este patrón se extendió al tamaño de los efectos informados también. En términos de significación estadística, la mediana del valor p reportado fue significativa (.02), mientras que la mediana del valor p no reportado no fue (.32); dos tercios de las pruebas informadas fueron significativas, mientras que solo una cuarta parte de las pruebas no informadas sí lo fueron. Finalmente, los tamaños de efecto publicados fueron aproximadamente dos veces más grandes que los no reportados.

Tomados en conjunto, el patrón que surgió es que la investigación en psicología tiende a subinformar las manipulaciones experimentales fallidas, las medidas que no funcionaron y los efectos más pequeños. Esto no debería sorprender a casi nadie que haya dedicado mucho tiempo a los investigadores de psicología o a los propios investigadores que han tratado de publicar hallazgos nulos (o, de hecho, han intentado publicar casi cualquier cosa). Los datos suelen ser desordenados y poco cooperativos, y la gente está menos interesada en leer acerca de las cosas que no funcionó (a menos que estén ubicadas en los contextos adecuados, donde las fallas para encontrar efectos realmente pueden considerarse significativas, como cuando ' estoy tratando de proporcionar evidencia contra una teoría). Sin embargo, el resultado de tal informe selectivo sobre lo que parece ser una escala bastante grande es que la confiabilidad general de la investigación de psicología informada desciende cada vez más, un falso positivo a la vez.

Entonces, ¿qué se puede hacer sobre este tema? Una sugerencia que a menudo se da la vuelta es la posibilidad de que los investigadores deban registrar su trabajo por adelantado, dejando en claro qué análisis van a realizar y qué predicciones han realizado. Este fue (el tipo de) el caso en los datos actuales, y Franco et al (2016) respaldan esta opción. Permite a las personas evaluar la investigación como algo más que simplemente confiar en las cuentas publicadas de la misma. Si bien es una buena sugerencia, solo va tan lejos para mejorar el estado de la literatura. Específicamente, en realidad no ayuda al problema de las revistas que no publican resultados nulos en primer lugar, ni necesariamente impide que los investigadores realicen análisis post hoc de sus datos y aparezcan falsos positivos adicionales. Lo que tal vez sea una forma más ambiciosa de aliviar estos problemas que se nos ocurren sería cambiar colectivamente la forma en que las revistas aceptan trabajos para su publicación. En este sistema alternativo, los investigadores enviarían un resumen de su artículo a una revista antes de llevar a cabo la investigación, dejando en claro (a) cuáles serán sus manipulaciones, (b) cuáles serán sus medidas de resultado, y (c) qué análisis estadísticos ellos emprenderán. Entonces, y esto es importante, antes de que el investigador o las revistas sepan cuáles serán los resultados, se tomará la decisión de publicar el documento o no. Esto permitiría que los resultados nulos se abrieran paso en las revistas principales y al mismo tiempo les permita a los investigadores construir sus propios curriculums si las cosas no funcionan bien. En esencia, elimina algunos de los incentivos para que los investigadores hagan trampas estadísticamente. La evaluación de las revistas se basará no en si surgen resultados interesantes, sino en si se ha planteado una pregunta de investigación lo suficientemente importante.

Flickr/Scott
Lo cual es bueno, considerando la frecuencia con la que aparecen los resultados reales y fuertes
Fuente: Flickr / Scott

Sin embargo, hay algunas desventajas en esa sugerencia. Por un lado, el plan tomaría algún tiempo para promulgar incluso si todos estuvieran a bordo. Las revistas necesitarían aceptar un documento para su publicación semanas o meses antes de que el documento en sí se complete. Esto plantearía algunas complicaciones adicionales para las revistas en la medida en que los investigadores ocasionalmente no completarían la investigación en forma oportuna, o presentarían artículos por debajo de lo común que aún no son dignos de impresión, dejando posibles lagunas de publicación. Además, algunas veces significará que un número de una revista sale sin contener ningún avance importante en el campo de la investigación psicológica (esta vez nadie descubrió nada), lo que podría afectar negativamente el factor de impacto de las revistas en cuestión. De hecho, esa última parte es probablemente el mayor obstáculo para realizar revisiones importantes al sistema de publicación actualmente: la mayoría de las investigaciones psicológicas probablemente no funcionen tan bien, y eso probablemente signifique menos personas finalmente interesadas en leer y citar eso. Si bien es posible, supongo, que los hallazgos nulos se citarían en realidad a tasas similares a las positivas, eso está por verse, y en ausencia de esa información, no preveo que las revistas estén terriblemente interesadas en cambiar sus políticas y tomar decisiones. ese riesgo

Referencias: Franco, A., Malhotra, N., y Simonovits, G. (2016). Subinforme en experimentos de psicología: Evidencia de un registro de estudio. Social Psychological & Personality Science, 7 , 8-12.