Las estadísticas de resultados imposibles

supernova

Mulder

: ¿Crees en la existencia de extraterrestres?

SCULLY : Lógicamente tendría que decir que no. Dadas las distancias necesarias para viajar desde los confines del espacio, los requisitos de energía superarían las capacidades de una nave espacial …

Mulder : sabiduría convencional …

Escribí antes sobre una conferencia dada por el astrónomo chileno Mario Hamuy. Al estudiar supernovas muy remotas, Hamuy y sus colegas encontraron evidencia que llevó a la conclusión de que el universo se está expandiendo a una velocidad acelerada. Antes de su descubrimiento, casi nadie pensó que esto fuera posible. Varias hipótesis con respecto a la tasa de desaceleración estaban en juego, y la idea de que la velocidad de expansión es constante fue la más extrema e imaginativa. Los datos de Hamuy fueron más extremos de lo que la hipótesis más extrema permitiría, y sin embargo, estos datos ahora son ampliamente aceptados, lo que lleva a una nueva hipótesis después del hecho: la tasa de expansión se está acelerando. ¿Por qué esto es así? Queda por explicar (¿energía oscura alguien?).

Hamuy mostró un gráfico con varias líneas, cada una representando una velocidad particular de expansión. La línea más empinada no suponía ninguna desaceleración. Cuando mostró datos de las supernovas distantes, se esperaba que cayeran como puntos en una de estas líneas, confirmando así la velocidad (variable) de expansión. La impactante revelación fue que los puntos se encontraban por encima de la línea más inclinada, y la medición era lo suficientemente precisa como para mantener incluso la línea más inclinada fuera de los intervalos de confianza dibujados alrededor de los puntos. ¿Te dan la imagen? Mediante pruebas de significancia estadística, Hamuy (y por lo tanto el resto de nosotros) se vieron forzados a concluir que los datos de la supernova eran improbables incluso bajo la hipótesis más cercana. Si (incluso) esa hipótesis tuvo que ser rechazada (las hipótesis de desaceleración fueron rechazadas a fortiori ), se debe establecer una nueva hipótesis, y con velocidad intergaláctica. De ahí el regreso de la constante cosmológica de Einstein y la llegada de la energía oscura (antigravedad).

Me persuadieron los datos y las conclusiones de Hamuy (todavía estoy). Parecía un uso fuerte de la prueba de hipótesis. Hamuy y su equipo habían establecido hipótesis precisas, y los datos se las llevaron. Si no se hicieron pruebas de hipótesis con estos datos, ¿qué alternativas hay? Una alternativa, que mencionaré solo brevemente, es el parámetro o la estimación del tamaño del efecto . Los defensores de este enfoque salen y miden, calculan los promedios (u otros tipos de estadísticas agregadas) y los márgenes de error en función de la información sobre el número y la dispersión de las observaciones. Luego trazan los medios y los intervalos de confianza, tal como lo hizo Hamuy para representar la distancia de las supernovas. El problema con el enfoque de estimación pura es que es ateórico. Ninguna hipótesis es rechazada o corroborada. Mire los puntos y diga "Es lo que es". Puede, por supuesto, estimar las tendencias centrales y observar si los intervalos de confianza incluyen un valor teórico. Si no lo hacen, puedes despedir educadamente ese valor (y la teoría que lo predijo). Obviamente, esta estrategia tiene el olor rancio de tratar de tener ambas cosas: rechazar una hipótesis, mientras afirma estar mirando solo a lo que es . Las pruebas de significancia, debe admitirse, son menos hipócritas en este tema. Nos enseña lo que no es.

La otra alternativa a las pruebas de hipótesis clásicas es la evaluación de la hipótesis bayesiana. Simpatizo con la causa bayesiana, pero veo limitaciones. Los datos de Hamuy muestran una de estas limitaciones, pero permítanme ilustrar mi preocupación con una versión estilizada de los datos no masivos que encontré recientemente en este lado de la galaxia.

Imagine un juego experimental, en el cual es posible que desee cooperar con una probabilidad particular. Hay dos probabilidades específicas que se pueden derivar de suposiciones de la teoría de juegos estándar. Uno es .5 y el otro es .75. Por qué eso es así es irrelevante aquí. Ahora recogemos los juicios de probabilidad de un grupo de encuestados y los promediamos. Digamos que la media es .8 y el error estándar es .02. Usando pruebas de significancia, notamos que la media empírica es mayor que el valor teórico más cercano de .75, t = 2.5, p = .013. Observe la analogía con el caso de Hamuy. Los datos empíricos son tan extremos que nos llevan a rechazar incluso la predicción teórica más cercana. Ni siquiera necesitamos probar la media empírica de .8 frente al valor teórico más remoto de .5.

¿O nosotros? En el mundo bayesiano, evaluamos los datos a la luz de múltiples (al menos dos) hipótesis mutuamente excluyentes y luego reevaluamos estas hipótesis a la luz de los datos. Para hacer eso necesitamos declarar cuáles son las probabilidades previas de estas hipótesis, pero si son las mismas, no necesitamos preocuparnos. Se cancelan mutuamente. El objetivo del análisis bayesiano es articular el apoyo relativo que las hipótesis reciben de los datos, y esto se expresa como una relación. Ya calculamos el valor p de los datos, D, bajo la Hipótesis 1, que establece que la probabilidad de cooperación es .75. Esta probabilidad es p (D | H1) = .013. Ahora también hacemos una prueba de significación en la Hipótesis 2 más remota, que establece que la probabilidad de cooperación es .5 y encuentra p (D | H2) = 6E-35, que es asombrosamente bajo. Completamos el círculo bayesiano dividiendo la probabilidad anterior por la última, que arroja .013 / 56E-35 = 2E32. H1, que dice que la probabilidad de cooperación es .75, está muy favorecida por los datos relativos a la hipótesis que dice que la probabilidad de cooperación es .5. El valor de .75 debe ser correcto. ¿Derecha?

No tan rapido. Supongamos que nuestros datos coinciden con la predicción de H1, mientras que todo lo demás permanece igual. Ahora p (D | H1) = 1 y p (D | H2) = 4E-27, lo que nos da una relación de Bayes de 2E26. Tenga en cuenta que hemos bajado de 2E32. En otras palabras, ahora que los datos se ajustan perfectamente a H1, el soporte relativo para H1 es más débil de lo que era cuando los datos eran más extremos que H1, cuando solo mediante pruebas de significancia hubiéramos rechazado H1. Aquí es donde los probadores de significancia (y los estimadores de parámetros) responden con alegría. En las estadísticas bayesianas, todo lo que se obtiene es el apoyo a la hipótesis que es menos falsa con la consecuencia paradójica de que el apoyo relativo para una hipótesis puede aumentar a medida que disminuye su apoyo absoluto (la distancia entre datos e hipótesis).

Los bayesianos podrían responder observando una distribución completa de hipótesis. En el presente ejemplo, podrían comenzar con una distribución uniforme de todas las hipótesis desde una probabilidad 0 de cooperación a una probabilidad de 1. En ese caso, el hallazgo empírico de .8 daría el mayor apoyo a la hipótesis que dice .8. Si lo hicieran, los bayesianos serían indistinguibles de los estimadores de parámetros. Tener una teoría significa haber descartado algunas cosas. Y eso es bueno hasta que la realidad vuelva a poner lo imposible en el mapa, como sucedió en el observatorio de Hamuy.