Encontré tu falta de teoría (y réplicas) inquietante

Digamos que te encuentras a cargo de un grupo de niños. Dado que usted es un psicólogo relativamente promedio, tiene una hipótesis relativamente extraña que desea probar: desea ver si usar una camisa roja hará que los niños sean mejores esquivando la pelota. Usted piensa que lo hará. Digo que esta hipótesis es extraña porque la deriva de, básicamente, nada; es solo una corazonada. Poco más que una idea de "¿no sería genial si fuera cierto?". En cualquier caso, desea ejecutar una prueba de su hipótesis. Comience alineando a los estudiantes, luego pase y cuente en voz alta: "1, 2, 1, 2, 1 …". Todos los niños con un "1" se ponen una camisa roja y forman un equipo; todos los niños con un "2" van y recogen una camisa nueva para poner en una pila de camisetas no rojas. Ellos sirven como su grupo de control. Los dos equipos se enfrentan en una ronda de esquivar bola. El equipo que usa las camisetas rojas sale victorioso. De hecho, ellos ganan por un margen sustancial. Esto debe significar que el uso de las camisetas rojas hizo que los estudiantes sean mejores para esquivar la pelota, ¿verdad? Bueno, ya que usted es un psicólogo relativamente promedio, probablemente concluiría que, sí, las camisas rojas claramente tienen algún efecto. Claro, su conclusión es, por lo menos, apresurada y probablemente incorrecta, pero usted es solo un psicólogo promedio: no podemos poner el listón demasiado alto.

"El salto fue exitoso (p <0.05)"

Una evaluación crítica de la investigación podría señalar que el hecho de que los niños fueran asignados aleatoriamente a grupos no significa que ambos grupos estuvieran igualmente igualados para comenzar. Si los niños del grupo de camisas rojas estuvieran mejor de antemano, eso podría impulsar el efecto. También es probable que las camisetas rojas hayan tenido muy poco que ver con qué equipo terminó ganando. La pregunta apremiante aquí parece ser ¿por qué esperaríamos que las camisetas rojas tuvieran algún efecto? No es como si una camisa roja hiciera que un niño fuera más rápido, más fuerte o más capaz de atrapar o lanzar que antes; al menos no por ninguna razón teórica que se me ocurra. Nuevamente, esta hipótesis es extraña cuando se considera su base. Asumamos, sin embargo, que usar camisas rojas realmente hizo que los niños rindan mejor, porque ayudó a los niños a aprovechar algunas habilidades preexistentes. Esto plantea la pregunta algo obvia: ¿por qué los niños necesitarían una camisa roja para aprovechar ese recurso previamente no explotado? Si ser bueno en el juego es importante socialmente -después de todo, no quieres que los otros niños te molesten por tu bajo rendimiento- y los niños podrían hacerlo mejor, parece, bueno, extraño que alguna vez lo hicieran peor. Uno necesitaría postular algún tipo de compensación afectada por el color de la camisa, que suena como una especie de variable extraña para que tenga en cuenta algún mecanismo cognitivo.

Sin embargo, como cualquier psicólogo que desee avanzar en su carrera académica, publique sus resultados en el Journal of Inexplicable Findings. El "Efecto camisa roja" se convierte en algo así como un clásico, informado en los libros de texto de Intro to Psychology. Los informes publicados comienzan a surgir de diferentes personas que han tenido otros niños que usan camisas rojas y realizan varias tareas atléticas relativamente mejor. Si bien ninguno de estos documentos son réplicas directas de su estudio inicial, también tienen niños con camisetas rojas que superan a sus compañeros, por lo que se los etiqueta como "réplicas conceptuales". Después de todo, dado que los conceptos parecen estar en orden, es probable que utilicen el mismo mecanismo subyacente. Por supuesto, estas réplicas aún no se ocupan de las preocupaciones teóricas discutidas anteriormente, por lo que algunos otros investigadores comienzan a sospechar algo acerca de si el "Efecto camisa roja" es todo lo que se supone que es. Parte de estas inquietudes se basan en una faceta extraña de cómo funciona la publicación: los resultados positivos, aquellos que encuentran efectos, tienden a ser favorecidos para la publicación de estudios que no encuentran efectos. Esto significa que puede haber otros investigadores que intentaron utilizar el efecto camisa roja, no lograron encontrar nada y, debido a sus resultados nulos o contradictorios, tampoco publicaron nada.

Eventualmente, le llegan noticias de un equipo de investigación que intentó replicar el efecto Red Shirt una docena de veces en el mismo documento y no pudo encontrar nada. Más preocupante aún, para su carrera académica, de todos modos, sus resultados vieron publicación. Naturalmente, te sientes muy molesto por esto. Claramente, el equipo de investigación estaba haciendo algo mal: tal vez no usaban el tono apropiado de la camisa roja; tal vez usaron una marca diferente de bolas de esquivar en su estudio; tal vez los experimentadores se comportaron de una manera sutil que fue suficiente para contrarrestar el efecto Red Shirt por completo. Por otra parte, tal vez el diario en el que se publicaron los resultados no tenga los estándares suficientes para sus revisores. Algo debe estar mal aquí; usted lo sabe porque su efecto Red Shirt fue conceptualmente replicado muchas veces por otros laboratorios. El efecto camisa roja solo debe estar allí; has estado contando los éxitos en la literatura fielmente. Por supuesto, tampoco has estado contando los errores que nunca se publicaron. Además, usted estaba contando los éxitos levemente alterados como "réplicas conceptuales pero no las fallas levemente alteradas como" desconfirmaciones conceptuales ". Todavía no has logrado explicar, teóricamente, por qué deberíamos esperar ver el Efecto camisa roja de todos modos. Por otra parte, ¿por qué le importaría algo de eso? Parte de tu reputación está en juego.

¡Y estos colores no se ejecutan! (p <0.05)

En noticias algo relacionadas, ha habido algunos comentarios salados del psicólogo social Ap Dijksterhuis dirigidos a un estudio reciente (y cobertura del estudio, y la revista en la que se publicó) sobre nueve fallas para replicar algunos trabajos que Ap hizo sobre la preparación de inteligencia, así como el trabajo realizado por otros en la preparación de inteligencia (Shanks et al, 2013). La idea inicial de preparación de inteligencia, al parecer, fue que los sujetos primarios con claves relacionadas con el profesor los ayudaron a responder preguntas de opción múltiple y conocimiento general, mientras que preparar temas con pistas relacionadas con el hooligan de fútbol los hizo funcionar peor (y no; No estoy bromeando. Realmente fue tan extraño). La inteligencia en sí misma es un concepto bastante confuso, y parece que preparar a las personas para que piensen en profesores -personas generalmente consideradas más altas en algunos dominios de ese concepto difuso- es una manera pobre de mejorarlas en preguntas de opción múltiple. Hasta donde puedo decir, no había ninguna teoría que explicara por qué los primos deberían funcionar de esa manera o, más precisamente, por qué las personas deberían carecer de acceso a tal conocimiento en ausencia de algún primo impreciso y sin relación. Por lo menos, ninguno fue discutido.

No fue sólo que las fallas en la replicación informadas por Shanks et al (2013) no fueron significativas, sino que en la dirección correcta, téngalo en cuenta; a menudo parecían ir en la dirección incorrecta. Shanks et al. (2013) incluso buscaron las características de la demanda de forma explícita, pero tampoco las encontraron. Nueve fallas consecutivas son sorprendentes a la luz del hecho de que los efectos de sensibilización de inteligencia se informaron anteriormente como bastante grandes. Parece bastante peculiar que los efectos grandes puedan desaparecer tan rápido; deberían haber tenido muy buenas posibilidades de replicarse, si fueran reales. Shanks et al (2013) sugieren acertadamente que muchos de los estudios confirmatorios de priming de inteligencia, entonces, podrían representar un sesgo de publicación, grados de libertad de los investigadores al analizar los datos, o ambos. Afortunadamente, los comentarios salados de Ap recordaron a los lectores que: "el hallazgo de que uno puede mejorar la inteligencia se ha obtenido en 25 estudios en 10 laboratorios diferentes". Por supuesto; y cuando un bateador en la MLB solo cuenta las veces que golpeó la pelota mientras estaba al bate, su promedio de bateo sería de 1,000. Contar solo los aciertos y no los fallos seguramente hará que parezca que los aciertos son comunes, sin importar cuán raros sean. Quizás Ap debería haber pensado más en los profesores antes de escribir sus comentarios (aunque me dicen que pensar en los primos también los arruina, así que tal vez no tenga suerte).

Me gustaría añadir que hubo comentarios igualmente salados dirigidos por otro psicólogo social, John Bargh, cuando su trabajo sobre la preparación de viejos estereotipos sobre la velocidad al caminar no se pudo reproducir (aunque John ha eliminado sus publicaciones). Los dos casos tienen algunas similitudes llamativas: afirmaciones de otras "réplicas conceptuales", pero no afirmaciones de "fallas conceptuales de replicar"; ataques personales a la credibilidad de la revista que publica los resultados; ataques personales a los investigadores que no pudieron replicar el hallazgo; incluso ataques personales a las personas que informan sobre las fallas en la replicación. Más interesante aún, John también sugirió que el efecto de cebado era aparentemente tan frágil que incluso pequeñas desviaciones del experimento inicial podrían desorganizar todo el asunto. Ahora me parece que si su "efecto" es tan fugaz que incluso algunos pequeños ajustes al protocolo de investigación pueden cancelarlo por completo, entonces realmente no se está tratando demasiado con respecto al efecto, incluso si fuera real. . Ese es precisamente el tipo de disparos en el pie que una persona "más inteligente" podría haber considerado dejar de lado su rabieta de otra manera persuasiva.

"Manejé bien la falla al replicar (p <0.05)"

También me gustaría añadir, en aras de la exhaustividad, que los efectos primarios de la amenaza del estereotipo tampoco se han replicado bien. Ah, y los efectos del realismo depresivo no muestran mucha promesa. Esto me lleva a mi punto final sobre el asunto: dados los riesgos planteados por los grados de libertad de investigación y el sesgo de publicación, sería conveniente promulgar mejores salvaguardas contra este tipo de problema. Las réplicas, sin embargo, solo van tan lejos. Las réplicas requieren investigadores dispuestos a hacerlas (y pueden ser actividades de baja recompensa, desanimadas) y revistas dispuestas a publicarlas con suficiente frecuencia (lo que muchos no hacen, actualmente). En consecuencia, creo que las replicaciones solo nos pueden llevar tan lejos para solucionar el problema. Me parece que un remedio simple, aunque parcial, para el problema requiere la inclusión de una teoría real en la investigación psicológica; teoría evolutiva en particular. Si bien no impide que se publiquen los falsos positivos, al menos permite que otros investigadores y revisores evalúen más a fondo las afirmaciones que se hacen en los documentos. Esto permite eliminar mejor los supuestos pobres y mejorar los proyectos de investigación diseñados para abordarlos directamente. Además, actualizar la vieja teoría y proporcionar material nuevo es una empresa de valor personal. Sin teoría, todo lo que tiene es una bolsa de hallazgos, algunos positivos, otros negativos, y no tiene idea de qué hacer con ellos o cómo deben ser entendidos. Sin teoría, cosas como el cebado inteligente o Red Shirt Effects suenan válidos.

Referencias : Shanks, D., Newell, B., Lee, E., Balakrishnan, D., Ekelund, L., Cenac, Z., Kavvadia, F., y Moore, C. (2013). Comportamiento inteligente de cebado: un fenómeno elusivo PLoS ONE, 8 (4) DOI: 10.1371 / journal.pone.0056515

Copyright Jesse Marczyk