Dos implicaciones del teorema de Bayes

La Rev enseña la incertidumbre.

En la ciencia, el progreso es posible. De hecho, si uno cree en el teorema de Bayes, el progreso científico es inevitable a medida que se hacen predicciones y se prueban y refinan las creencias . ~ Nate Silver

Si la probabilidad de que el teorema de Bayes sea verdadero es .9, ¿cuál es la probabilidad revisada de que sea verdadera si rechazamos la hipótesis de que sea falso en p = .05? ~ JIK

Thomas Bayes era un clérigo y matemático inglés que estaba interesado, entre otras cosas, en encontrar una prueba de Dios. No pudo, pero dejó un tratado y un teorema que, después de su publicación póstuma (Bayes, 1764), se convirtió en la base de lo que ahora llamamos estadísticas bayesianas. Lo que el teorema de Bayes hace, en términos conceptuales, es describir cómo la creencia preexistente (conjetura, hipótesis o corazonada) debe actualizarse a la luz de nueva evidencia (observaciones, datos) de tal manera que no haya contradicciones. En otras palabras, el teorema de Bayes garantiza la coherencia y promete gradualmente grados crecientes de precisión de creencias. No es de extrañar que muchas personas (estadísticos, psicólogos, maquinistas) vean el teorema como la definición de racionalidad. En este ensayo medianamente técnico, señalo dos implicaciones del teorema de Bayes que no están particularmente ocultas en las matemáticas, pero que son profundas en su relevancia para la investigación y la religión. Pero primero tenemos que introducir los términos del teorema y cómo se relacionan entre sí (que es el trabajo del teorema para iluminar).

J. Krueger

Figura 1. Teorema de Bayes

Fuente: J. Krueger

La figura 1 muestra el teorema. La probabilidad de que una creencia (H para hipótesis de aquí en adelante) sea verdadera dada la evidencia (D para datos), o p (H | D), es igual al producto de la probabilidad previa de la hipótesis, p (H) , es decir, antes de que se introduzcan los nuevos datos, y la “razón de diagnóstico”. Esta relación es la probabilidad de que los datos supongan que la hipótesis es verdadera, p (D | H), sobre la probabilidad total de los datos, p (D ), es decir, la probabilidad sumada de los datos bajo todas las hipótesis. Para simplificar las cosas ( ¡sí! ), Supongamos que solo hay una hipótesis alternativa, ~ H, cuya probabilidad es 1 – p (H). Ahora podemos decir que p (D) = p (H) * p (D | H) + p (~ H) * p (D | ~ H). El teorema está completo. Mire nuevamente la Figura 1 para apreciar este hecho.

La primera implicación del teorema de Bayes es que el reverendo podría haber probado a Dios en teoría, pero que la condición necesaria es extrema. Es posible que p (H | D) sea 1, pero solo si p (D | H) = 1 yp (D | ~ H) = 0. La certeza de la creencia requiere certeza de los datos. Los datos deben ser ciertos dada la hipótesis de interés e imposible bajo la hipótesis alternativa. Cuando se cumple este último par de condiciones, la fuerza previa de la creencia (en dios o lo que sea) es irrelevante. Prueba (es decir, la combinación de p (D | H) = 1 yp (D | ~ H) = 0) erradica la diferencia entre el defensor y el escéptico.

Tanto para la religión En la mayoría de las ciencias empíricas, la prueba incontrovertible es rara. Los datos vienen con ruido e incertidumbre, y las hipótesis y las creencias y suposiciones que respaldan tienden a seguir siendo probabilísticas. A lo sumo, los investigadores podrían decir que tienen ‘certeza moral’ de que X es verdadero. Como la moral es famosa por su imperfección, la puerta para un cambio de mentalidad con nuevos datos queda abierta.

La segunda implicación del teorema de Bayes es relevante para la pregunta de qué tan bien alineada está la probabilidad de los datos bajo la hipótesis, p (D | H), con la probabilidad posterior de la hipótesis, es decir, dados los datos, p (H | D). Esta pregunta es de interés para todos los investigadores que desean probar hipótesis y no solo si los datos son creíbles. Estos investigadores quieren sacar inferencias de los datos a las hipótesis. Quieren usar p (D | H) para inferir p (H | D). Para hacerlo, necesitan el teorema completo. Necesitan saber (o postular) p (H), p (~ H) yp (D | ~ H). Una inferencia de p (D | H) a p (H | D) es fuerte en la medida en que los dos términos están correlacionados entre sí. Usando experimentos de simulación, encontramos que estas correlaciones son positivas, pero que su magnitud puede variar ampliamente en formas predecibles (Krueger y Heck, 2017). Aquí queremos encontrar las condiciones bajo las cuales p (D | H) yp (H | D) son idénticas.

El teorema de Bayes muestra que p (D | H) = p (H | D) si y solo si p (H) = p (D). Ahora consideremos el caso de p (D | H) = .05, donde el investigador, siguiendo la convención, declara que el resultado es significativo. Con toda probabilidad, p (H | D) no será tan bajo como p (D | H), pero podría ser. La pregunta de hoy es: ¿qué se necesita para que sea así? Un poco de álgebra revela que p (D | H) = p (H | D) si p (D | ~ H) = (p (H) – p (D | H)) / p (~ H). Vamos a probar algunos ejemplos. Habiendo seleccionado p (D | H) = .05, podríamos tener una hipótesis que no parece ser particularmente probable ni improbable desde el principio, es decir, p (H) = .5. Ahora, si p (D | ~ H) = .9, tenemos nuestra igualdad deseada de p (H | D) = p (D | H) = .05. Este es un buen arreglo. La creencia anterior es máximamente incierta (p (H) = .5); los resultados son significativos (p (D | H) = .05) y muy probable bajo la hipótesis alternativa (p (D | ~ H) = .9); y la hipótesis nula es de hecho rechazable (p (H | D) = .05, lo que significa que p (~ H | D) = .95.

Ahora considere las consecuencias más preocupantes que surgen cuando nos alejamos de este escenario del mejor de los casos. ¿Qué pasa si el investigador selecciona una hipótesis alternativa arriesgada, es decir, un caso donde p (H) es alta? Si p (H) = .8, por ejemplo, p (D | ~ H) tendría que ser 3.75, de modo que p (D | H) = p (H | D) = .05. Un resultado imposible! El teorema de Bayes lo prohíbe. Si persigue una investigación arriesgada (si p (H) es alta) y logra obtener significancia estadística, se garantiza que la hipótesis no es tan poco probable como lo son los datos que conducen a su rechazo. En p (H) = .525, p (D | ~ H) = 1. Para cualquier valor mayor de p (H), p (H | D)> p (D | H). Este es uno de los cuernos del dilema.

El otro cuerno emerge cuando la investigación es segura. Cuando p (H) es baja, es decir, cuando la probabilidad de la hipótesis alternativa o sustantiva, p (~ H), es alta a priori , la igualdad de p (H | D) y p (D | H) es fácil obtenido, pero por el precio que p (D | ~ H) es bajo. Por ejemplo, si p (H) = .1, y tanto p (D | H) como p (H | D) = .05, entonces p (D | ~ H) = .056. Esto puede parecer un resultado grotesco. Por un lado, la hipótesis alternativa se considera muy probable a priori (p (~ H) = .9), mientras que, por otro lado, esta misma hipótesis proporciona un ajuste con los datos que es casi tan pobre como el ajuste con la hipótesis (H) eso está siendo rechazado.

La moraleja de la historia es que el teorema de Bayes no solo nos enseña la coherencia, sino que también nos urge (si es que puede hablar) a hacer nuestro mejor esfuerzo para seleccionar hipótesis de probabilidad intermedia para la prueba. Es aquí donde la investigación empírica produce las mayores recompensas.

¿Prueba? ¿Qué prueba? Cuando escribo la primera implicación (“La prueba elimina el desacuerdo entre el abogado y el escéptico”), me sacudí de mi sueño humeano. David Hume (1764) argumentó (¡ y demostró! ) Que no se puede probar la validez de la inducción por medios deductivos (ver aquí en la Enciclopedia de Stanford). El ejemplo cliché de esta visión muy profunda es que no importa cuántos cisnes blancos hayas visto, no se puede tomar como probado que no existe un cisne negro. Esto es así cuando no hay límite en el número posible de cisnes que hay. El argumento no se sostiene en una población finita. Ahora debemos preguntarnos si p (D | H) puede ser 1. Si estamos trabajando en la tierra de la teoría, asumiendo la presencia de una distribución Gaussiana (o de otra manera ilimitada), es difícil ver cómo eso podría afirmarse en el base de datos. Los datos, como vienen en medidas, son finitos en su valor numérico. Por lo tanto, siempre es posible un valor más extremo. Por lo tanto, la probabilidad de que estos datos o datos sean menos extremos debe ser menor que 1. Por lo tanto, el argumento que he hecho, a saber, que el teorema de Bayes nos permite extraer cierta creencia de los datos observados, es válido solo en teoría pero no en la práctica. Hume gana (ver aquí una interesante nota histórica que sugiere que los esfuerzos de Bayes fueron motivados por el deseo de refutar a Hume).

Terminamos con una cita de David Hume, solo para mostrar que el gran escéptico tenía un perverso sentido del humor. “He escrito sobre todo tipo de temas … pero no tengo enemigos; excepto en verdad todos los whigs, todos los tories y todos los cristianos “ (se encuentra aquí).

Bayes, T. (1764). Un ensayo para resolver un problema en la doctrina de las posibilidades . Transacciones filosóficas de la Royal Society of London, 53 , 370-418.

Hume, D. (1739). Un tratado de la naturaleza humana . Oxford, Inglaterra: Oxford University Press.

Krueger, JI, y Heck, PR (2017). El valor heurístico de p en la inferencia estadística inductiva. Fronteras en psicología: psicología educativa . https://doi.org/10.3389/fpsyg.2017.00908