Miedo a los falsos positivos

Yo soy el único dios que conoce las llaves / de la armería donde está sellado el rayo. / No es necesario para eso, no aquí. / Déjame persuadirte. ~ Aischylos: Las Euménides [1]

En un artículo muy circulado para aparecer en Nature , Benjamin y 71 coautores solicitan que los niveles de significancia sean más estrictos de la convención actual de p <.05 a .005. El argumento es que el registro publicado de la ciencia psicológica contiene demasiados resultados positivos falsos, lo que nos lleva a creer en cosas que no lo son, como el Sasquatch o la iniciación social. La reducción del umbral de significación reduciría la incidencia de falsos positivos. Al mismo tiempo, dicen, la nueva convención, si se adopta, ayudaría a solucionar la crisis de replicación. O lo haría? Si es difícil replicar un resultado de .05 en un nivel dado de potencia estadística, entonces será difícil replicar un resultado de .005 en ese mismo nivel de potencia. Recuerde que el poder estadístico es la probabilidad de encontrar significancia [según lo definido por la convención] con una probabilidad dada [convencionalmente .8] si el hallazgo original es real, es decir, si es un verdadero y no un falso positivo. Para hacer que su propuesta sea positivamente relevante para la crisis de replicación, los autores proponen que se aplique un umbral de significación reducido solo a las pruebas de hipótesis novedosas. En otras palabras, solicitan que informemos una nueva pieza de investigación solo si p <.005, mientras nos permite replicarlo con p <.05. [Esta propuesta plantea la pregunta de cómo sabemos qué es una prueba nueva]

Esta propuesta de ajuste de los tornillos es interesante, pero coquetea con la incoherencia. Recuerda el viejo dicho de que Dios ama p = .055 no menos (o no mucho menos) de lo que ama p = .045 (y la prueba del profesor Gelman). Ahora a Dios tampoco le importa mucho qué estudio se llevó a cabo primero y se lo considera la prueba de la hipótesis novedosa y lo que se realizó más tarde. El orden de estos estudios es teórica y estadísticamente irrelevante (Krueger, 2001). Si deseamos llevar a cabo estudios primero y segundo a diferentes estándares estadísticos, también podríamos invertir el argumento. Seamos fáciles en las primeras pruebas de hipótesis porque aún no saben lo que son. Las primeras pruebas son exploratorias, no confirmatorias (Sakaluk, 2016). Las primeras pruebas son la manera de alimentarse del científico. El científico comprende que las pruebas tempranas fáciles producirán muchas pistas que luego se convertirán en callejones sin salida, pero él y ella también entiende que tales pruebas harán aparecer muchos hallazgos que luego se contarán como verdaderos descubrimientos.

Benjamin et al. conocer los riesgos de los errores negativos falsos, pero no parecen muy preocupados. Esta falta de preocupación es extra-estadística. Es un juicio de valor. Si creen que los horrores de los falsos positivos son mayores que los horrores de los falsos negativos, deben abogar por un umbral de p más estricto. Como defienden un umbral de p más estricto, podemos inferir de manera inversa que aborrecen los falsos positivos (Krueger, 2017). Pero, como algunos de nosotros hemos argumentado, debemos considerar qué dirección tomará la ciencia al considerar los cambios en la práctica convencional (Fiedler, Kutzner y Krueger, 2012). Sin embargo, hay consideraciones estadísticas en que podemos estimar la velocidad a la que los falsos positivos y los falsos negativos cambiarán con los cambios en el umbral p. En experimentos de simulación, encontramos que la disminución del umbral p degrada la validez general de las inferencias inductivas (Krueger y Heck, 2017). Esto es así porque la proporción de Misses se eleva más abruptamente que la proporción de falsos positivos. Insistir en reducir el umbral de significación a la luz de estos hallazgos es colocar una mayor desutilidad en un falso positivo que una utilidad en un verdadero positivo.

¿Y por qué .005 y no .01 o .001? Benjamin et al. admitir que la elección es tan arbitraria como pragmática. Se refieren a la prueba social (muchos la favorecen) y al elevado factor de Bayes que la acompaña. Cuanto menor es el valor p, mayor es el BF que favorece la hipótesis alternativa. Este es un momento de verdad para los bayesianos entre los autores. El BF, como resulta, es una transformación logarítmica del valor p. No se agrega nada estadístico hasta que se incluyan los priores, pero esa es otra historia.

El informe de 72 autores proviene de la literatura crítica sobre pruebas de significación. Esta literatura se reduce a dos afirmaciones:

  1. los valores p son fatalmente defectuosos en el sentido de ser incoherentes y poco confiables;
  2. Los valores p no son lo suficientemente bajos.

Los 72 enfatizan este último punto, desestimando así el primero. Sin duda, sería difícil registrar ambas quejas en el mismo documento. Sería más bien como el viejo chiste judío que "¡La comida era horrible, y las porciones eran tan pequeñas!"

Hay un tercer punto, que no se trata de los principios estadísticos, sino de su uso. Los críticos se quejan de que los investigadores usan un umbral de significancia de manera estúpida o servil para hacer inferencias categóricas sobre la presencia o ausencia de "algo". Ni siquiera Fisher, Neyman y Pearson defendieron la toma de decisiones rígida. Fisher consideró .05 como un umbral razonable cuando se conoce poco más, y Neyman y Pearson sugirieron que los investigadores deberían usar .05, .01 o .001 dependiendo de las utilidades relativas de los dos tipos de error. Ahora los 72 se acercan a exigir un cambio normativo, un nuevo criterio de significancia que sería vinculante por consenso social y decreto editorial. Con esto, los 72 cometen lo que de otra manera se condena como el pecado cardinal de ST, el dibujo de una línea brillante entre ser y no ser.

De hecho, hay una psicología de categorización de líneas brillantes. El principio de Tajfel (por ejemplo, 1969) propuso la teoría de la acentuación como una forma de dar sentido a las diversas consecuencias de la categorización arbitraria (y no arbitraria). Informó sobre el resultado replicable de que los valores colocados en un continuo se perciben como respectivamente más pequeños y más grandes si caen al lado izquierdo (más pequeño) o derecho (más grande) de un punto de demarcación (Krueger y Clement, 1994). La acentuación perceptiva en el dominio de los índices estadísticos y las decisiones no es una enfermedad particular que sale de ST.

Una complicación final que se esconde en el informe 72 es qué hacer con los resultados anteriores. Tal vez el 72 significa implicar que todos los hallazgos con .05> p> .005 sean descartados. De hecho, esta conclusión se desprende de su propuesta. Como se señaló anteriormente, a Dios (y a Fisher) no les importa la cronología relativa de los resultados. Aquí el 72 puede marcar la diferencia. Pueden optar por registrar y desautorizar todos sus hallazgos pasados ​​con .05> p> .005. Cualquier posible replicación posterior de estos resultados es irrelevante porque, de acuerdo con su propia lógica, nunca debería haber ocurrido.

[1] Aischylos, al poner estas palabras en la boca de Atenea, enfatiza el poder de la persuasión sobre la autoridad. Del mismo modo, nuestras prácticas científicas deben responder al argumento razonado, no a la proclamación por autoridad.

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E.-J., Berk, R., … Johnson, V. (2017, 22 de julio). Redefinir la significación estadística Obtenido de osf.io/preprints/psyarxiv/mky9j

Fiedler, K., Kutzner, F., y Krueger, JI (2012). El largo camino desde el control a la validez propiamente dicha: problemas con un debate miope positivo falso. Perspectives on Psychological Science, 7 , 661-669.

Krueger, J. (2001). Prueba de significación de hipótesis nula: sobre la supervivencia de un método defectuoso. Psicólogo estadounidense, 56 , 16-26.

Krueger, JI (2017). Inferencia inversa En SO Lilienfeld & ID Waldman (Eds.), Ciencia psicológica bajo escrutinio: retos recientes y soluciones propuestas (pp. 110-124). Nueva York, Nueva York: Wiley.

Krueger, J. y Clement, RW (1994). Juicios basados ​​en la memoria sobre múltiples categorías: una revisión y extensión de la teoría de acentuación de Tajfel. Revista de Personalidad y Psicología Social, 67 , 35-47

Krueger, JI, y Heck, PR (2017). El valor heurístico de p en la inferencia estadística inductiva. Frontiers in psychology: Educational Psychology [Tema de investigación: Aspectos epistemológicos y éticos de la investigación en ciencias sociales]. https://doi.org/10.3389/fpsyg.2017.00908

Sakaluk, JK (2016). Explorando lo pequeño y lo confirmante: un sistema alternativo a las nuevas estadísticas para avanzar en la investigación psicológica acumulativa y replicable. Revista de Psicología Social Experimental, 66 , 47-54.

Tajfel, H. (1969). Aspectos cognitivos del prejuicio. Journal of Social Issues, 25 , 79-97.