La vida y el tiempo de P

Wikipedia; public domain
Fuente: Wikipedia; dominio publico

Totgesagte leben länger. ['Los que se pronuncian muertos viven más tiempo', o en el latín vulgar: 'Declaravit iam mortuum vivere'] ~ Origen desconocido

Espero que los valores p sean medidas legítimas. De lo contrario, no he aprendido nada en las estadísticas . ~ Lauren Krueger, estudiante de negocios y finanzas, Universidad de Maastricht

Las estadísticas se refieren a la probabilidad y ningún índice de probabilidad único ha visto tanto uso y abuso como el llamado valor p (ver aquí un ensayo anterior). Poco p expresa la probabilidad de que los datos (o datos más extremos) supongan que una hipótesis particular (es decir, un modelo teórico de la realidad) es correcta. A menudo, este modelo teórico es teórico en el sentido de que supone que no hay nada allí. Se podría decir que no creo que se pueda notar la diferencia, desde la degustación sola, entre la leche que se ha agregado al té y el té agregado a la leche. Decir que no puede ver la diferencia es decir que cada vez que lo intenta tiene una probabilidad de .5 de ser correcto. Si logras 8 de cada 10 intentos, p = .055 con una prueba de una cola. Por convención, estaríamos intrigados por sus éxitos, pero no deduciríamos que tiene una capacidad demostrable para el orden de vertido.

P está en todas partes. Ya sea la evaluación de las asociaciones entre las variables empíricas o las diferencias en los medios, las medianas, los rangos o las proporciones, p proporciona una medida común. Las estadísticas de prueba pueden variar (r, b, t, F, chi-cuadrado, U o W), pero p las hace comparables. Sin embargo, muchos estadísticos odian p debido a la mala interpretación y el uso indebido que todos hemos visto o por lo que p no es y no pretende ser, es decir, la probabilidad de que la hipótesis tenga los datos. Los motivos anteriores de malhumor son una distracción porque son una cuestión de recepción de p y no de su naturaleza. Estos últimos son discutibles porque p , si pudiera hablar, no reclamaría ser igual a su probabilidad condicional inversa. Claramente, la probabilidad de que los datos proporcionados a la hipótesis, p (D | H), no puedan pretender ser la probabilidad de la hipótesis dada a los datos, p (H | D). Solo las personas que no entienden cómo se relacionan los condicionales inversos pueden hacerlo, lo que nos devuelve al problema de la ignorancia y el uso indebido.

A menudo, el desprecio por p se mezcla con o justificado por el desprecio por la prueba de hipótesis nula. La hipótesis nula (o nula) de ningún efecto a menudo es retratada como un hombre de paja. Ya sabemos que es falso, por lo que mostrar que es falso al informar un valor bajo de p es una farsa que se hace pasar por ciencia. De Verdad? ¿Sabemos ya que tiene la capacidad de detectar si el té se agregó a la leche o la leche al té (o la notable "capacidad" de hacerlo retroceder)? Las hipótesis nulas se configuran como predicciones comprobables cuando una persona razonable esperaría que no hubiera allí. Entonces, cuando en un conjunto de estudios bien diseñado y replicado, p permanece bajo, tenemos una prueba de existencia (probabilística).

Ha habido clamores sobre los horrores de p durante un siglo, y recientemente está volviendo a alcanzar un punto álgido, en gran parte porque los abusos escandalosos de p nos han llamado la atención, y no porque se hayan revelado los horrores inherentes del método, ya sea por matemáticas inteligentes o auto-da-fé . ¿A quién acude para un juicio autoritario con respecto a p y su uso? ¡La Asociación Americana de Estadística, por supuesto!

Y he aquí! La ASA se levantó a la tarea y emitió una declaración con respecto a p . La junta convocó e invitó a expertos de diferentes escuelas de pensamiento para ofrecer su evaluación, y al final se publicó un informe juicioso y cauteloso (Wasserstein & Lazar, 2016). El tenor es que el valor de p tiene algún valor probatorio, pero que es fácilmente malinterpretado y mal utilizado. Se debe tener cuidado y se deben usar otras herramientas estadísticas también. Esto no es una condena de los valores de p como el trabajo del diablo. Tampoco es una declaración de que haya métodos alternativos disponibles que sean tan claramente superiores que las pruebas de significación y el informe de p puedan abandonarse. En otras palabras, el informe ASA es notable en lo que no dice. Los investigadores y sus estudiantes pueden continuar como lo han hecho, mientras tratan de ser éticos y conscientes. Ni mas ni menos.

El informe de ASA es el trabajo de un comité, que refleja una condensación de un rango de opinión en una sola narrativa diseñada para minimizar el desacuerdo en promedio. Curiosamente (y para el crédito de ASA), 21 comentarios se publican junto con el informe como material complementario. Mayo de los escritores parece haber participado en la preparación del informe de ASA, por lo que sus evaluaciones individuales proporcionan una ventana interesante a la variación en la opinión que se agrega en el informe. Aquí hay algunos temas que surgen en los comentarios individuales:

En mi lectura, cuatro de los comentarios (Benjamin & Berger, Carlin, Johnson y Rothman) claramente abogan por un abandono del valor p (es decir, el grupo que no abandona es la mayoría, p = .007, dos colas). Los otros admiten a regañadientes que p tiene algunos usos, que otros métodos (especialmente los cálculos bayesianos) tienen los mismos o diferentes problemas, o que el problema "real" no es un índice estadístico en particular, sino el contexto epistemológico más amplio. Algunos de los comentaristas incluso apoyan enfáticamente el uso del valor de p si se entiende adecuadamente. Aquí hay algunas citas memorables, procedentes de 7 de los 21 comentarios:

"¿Qué hizo que el valor de p fuera tan útil y exitoso en la ciencia a lo largo del siglo XX, a pesar de los conceptos erróneos tan bien descritos en la declaración? En cierto sentido, ofrece una primera línea de defensa contra el engaño por la aleatoriedad, separando la señal del ruido, porque los modelos que requiere son más simples que cualquier otra herramienta estadística. " ~ Benjamini

"A veces, especialmente cuando se usan nuevas tecnologías científicas emergentes, el valor p es la única forma de cuantificar la incertidumbre". ~ Benjamini

"Los valores P son medidas prácticas de la extremidad y sirven para describir un conjunto de números de forma similar a los puntajes Z e intervalos de confianza". ~ Berry

Los valores P "sirven para describir un conjunto de datos de números y, en ese sentido, son herramientas útiles". ~ Berry

"No se trata de abandonar los valores P, se trata de abandonar la investigación deficiente". ~ Ionannidis

"P-values ​​continuará ofreciendo información útil". ~ Ioannidis

Los valores P son "un índice del significado probatorio de los datos dentro de un modelo estadístico". ~ Lew

"Los valores P son una respuesta utilizable y defendible a la pregunta de qué dicen los datos". ~ Lew

"Es incorrecto afirmar que un valor p es" no válido "por no coincidir con una probabilidad posterior basada en una u otra distribución previa". ~ Poco

"Los valores P deben conservarse para un papel limitado como parte de la maquinaria de los enfoques estadísticos de errores". ~ Senn

"La ciencia progresa en parte al descartar posibles explicaciones de los datos. Los valores p ayudan a evaluar si una explicación dada es adecuada. " ~ Stark

Pero . . .

el mal y el abuso siguen siendo un problema. Al buscar en Google "el valor p", un ensayo de Deborah Rumsey aparece primero. Escribiendo para dummies.com, Deb declara que " un pequeño valor p (típicamente ≤ 0.05) indica una fuerte evidencia contra la hipótesis nula, por lo que rechazas la hipótesis nula ". Ella nos pide que traguemos su argumento con un ejemplo gustativo, invitándonos imaginar que " un lugar de pizza afirma que sus tiempos de entrega son de 30 minutos o menos en promedio, pero cree que es más que eso. Realiza una prueba de hipótesis porque cree que la hipótesis nula, Ho, de que el tiempo medio de entrega es de 30 minutos como máximo, es incorrecta. Su hipótesis alternativa (Ha) es que el tiempo medio es mayor a 30 minutos. Usted muestra aleatoriamente algunos tiempos de entrega y ejecuta los datos a través de la prueba de hipótesis, y su valor p resulta ser 0.001, que es mucho menor que 0.05. "

Y, para estar seguro de que comprende, De declara que " en términos reales, existe una probabilidad de 0.001 de que rechace por error el reclamo de la pizzería de que su tiempo de entrega es inferior o igual a 30 minutos ".

Si fuera solo así. El ASA tiene mucho trabajo por hacer.

Wasserstein, RL, y Lazar, NA (2016). Declaración de ASA sobre valores p: contexto, proceso y propósito. The American Statistician, 70 , 129-133. doi: 10.1080 / 00031305.2016.1154108

Los comentarios están aquí