Juicio bajo incertidumbre: estadísticas y sesgos

J. Krueger
Fuente: J. Krueger

Todavía quedan algunas frecuentadas. ~ Joe Austerweil, mientras reflexiona sobre el problema Bayesiano "peludo"

Las pruebas de significancia son vistas por muchos de sus practicantes como el refugio de la objetividad, el corazón del método científico y el Santo Grial que conduce a descubrimientos que definen la carrera. Los datos se recopilan, se calcula una estadística de prueba y se encuentra la probabilidad de que se obtenga una estadística al menos así de grande. Si esta probabilidad es menor a .05, la hipótesis nula es rechazada. Se supone que algo más, no nada , está sucediendo. Típicamente, se piensa que "nada" es cualquier tratamiento que separe a los sujetos experimentales de los controles. El método es objetivo en el sentido de que todos los que conocen el simulacro obtienen el mismo resultado.

'Objetivo' no significa 'válido'. La validez de los métodos de prueba de significancia ha sido cuestionada durante un siglo (una crítica temprana se puede encontrar en el Libro de Job , ver Nota de trabajo). Sin embargo, estos métodos prevalecen (al menos por el momento, la fiesta podría terminar mañana). ¿Por qué? Gerd Gigerenzer (en algún lugar, en algún momento) observó que el uso del valor p, es decir, usando la probabilidad de los datos bajo la hipótesis nula, p (D | H), para inferir el inverso, es decir, la probabilidad de la hipótesis dada los datos, p (H | D), es una instancia de juzgar por la representatividad heurística . No dio detalles, por lo que recuerdo, así que lo haré aquí.

Recuerde (o busque) que p (H | D) = p (D | H) * p (H) / pD). Los datos sí hablan de la hipótesis. Su efecto (probabilidad) se debe multiplicar por la razón de las tasas base, es decir, la probabilidad previa de la hipótesis dividida por la probabilidad global de encontrar ese tipo de datos (bajo cualquier hipótesis). El reverendo Bayes dice que debes multiplicar y dividir. Sin embargo, la prueba de la significación, la gran seductora, tienta al investigador a saltar directamente de p (D | H) a p (H | D), y las relaciones de índice de base se condenan. Esta diferencia entre usar e ignorar la información de fondo es lo que distingue el pensamiento de percibir en el trabajo de Tversky y Kahneman y en gran parte de lo que inspiraron.

La heurística de la representatividad se hizo famosa por su negligencia de definición, mejor dicho, despido, de las tasas de base (priores). Escuchemos a Tversky y Kahneman (TK, 1974): "Muchas de las preguntas probabilísticas con las que se refieren las personas [son del tipo que pregunta] ¿cuál es la probabilidad de que el objeto A pertenezca a la clase B? "A se refiere a los hallazgos del estudio, y B es una realidad subyacente potencial según lo descrito por la hipótesis. Luego, "al contestar tales preguntas, la gente típicamente confía en la heurística de representatividad, en la que las probabilidades se evalúan por el grado en que A es representativo de B, es decir, por el grado en el cual A se parece a B."

TK revisa 6 características del juicio por representatividad. Veamos si se aplican a las pruebas de significación y su práctica.

[1] Insensibilidad a la probabilidad previa de resultados . ¿Esto aplica? Sí. A un fallo. Las pruebas de significación corchetes explícitamente la probabilidad previa de la hipótesis nula, o cualquier otra hipótesis. Los investigadores pueden contemplar en silencio el riesgo de su proyecto (es decir, las posibilidades de encontrar algo en lugar de nada), pero no están invitados a formalizar estas contemplaciones y dejar que afecten su inferencia sobre la hipótesis una vez que recopilaron la evidencia. En este sentido, las pruebas de significación son incluso más sólidamente heurísticas que las del representante de variedad de jardín que piensa (es decir, percibe) que usted y yo nos conformamos cuando nos preguntamos si el novio de nuestra hija pertenece a la categoría de "idiotas". Él no se comporta como un idiota, ni se ve como un idiota, ergo . . . e ignoramos el tamaño de la categoría de idiotas, es decir, ignoramos cuán probable es a priori que el joven sea un imbécil. Por cierto, es un poco extraño que los conocimientos tradicionales introduzcan la heurística de la representatividad en términos de sus características definitorias y sus resultados. La negligencia de Bayes (más precisamente 'negligencia de la tasa de base') parece usar ambos sombreros.

[2] Insensibilidad al tamaño de las muestras . La prueba de significación es sensible al tamaño de la muestra, por lo que en este sentido el método no se parece a la heurística. Cuanto más grande es la muestra, más probabilidades hay de descubrir un efecto, si es que hay uno. Sin embargo, como se nota en TK, muchos practicantes de pruebas de significancia muestran este tipo de insensibilidad. Es como si pensaran en un tipo particular de heurística de representatividad usando otra.

[3] Conceptos erróneos sobre el azar . De nuevo, este es un problema de personas en lugar de un procedimiento. La gente tiene una intuición pobre sobre el azar, que es una de las razones de su vulnerabilidad de ser explotado por casinos, vendedores de lotería y vendedores de seguros. Las pruebas de significación tienen suposiciones acerca de la probabilidad incorporada. Ayudan a producir el valor de p.

[4] Insensibilidad a la previsibilidad. Aquí, TK significa que las buenas historias influyen en los juicios de las personas. Predicen el valor (algo positivo o algo negativo) del valor de la historia mientras ignoran la confiabilidad de la historia, por ejemplo, si está basada en la opinión de un experto o rumores. Las pruebas de significancia, y estoy aquí por una extremidad, tienen lo que parece ser una característica similar (representativa). Las inferencias que sugiere acerca de la verdad o falsedad de la hipótesis nula (es decir, las predicciones) se basan solo en los datos, y no en qué otras hipótesis están en juego. Puede ocurrir que el valor de p bajo nulo sea bajo, pero que el valor de p bajo una hipótesis alternativa sea mucho menor, en cuyo caso un Bayesiano argumentaría que hay evidencia relativa a favor de la hipótesis nula.

[5] La ilusión de validez . TK sostiene que la confianza en la representatividad fomenta un falso sentido de validez. Esto debería ser así si la gente confía en una heurística que es menos que perfectamente válida. Si no tuvieran ilusión de validez, no confiarían en la heurística. En cualquier caso, las pruebas de significación, como se señala en la primera oración de este ensayo, seducen a la gente de la investigación para que se ilustre de la misma manera. Pensando que las pruebas de significación son la herramienta maestra para el descubrimiento científico, solo pueden terminar confiando demasiado.

[6] Conceptos erróneos de la regresión . Esa es buena. Último pero no perdido. Buscando el genio y encontrando poco, Galton (Sir Francis) "descubrió" la regresión (a la media). Los hijos de hombres sobresalientes no fueron tan sobresalientes. Hoy conocemos la regresión como una característica esencial de un mundo probabilístico. Sin embargo, al pensar representativamente, predecimos A desde B como si la correlación entre los dos casos superiores fuera perfecta, incluso cuando no lo es. En el contexto de las pruebas de significación, la regresión se levanta cuando los investigadores suponen que los hallazgos significativos se replicarán. Esto está relacionado con los puntos [2] y [5], y es principalmente un problema de los usuarios de las pruebas y solo parcialmente un problema del valor de p; p habla de su propia replicabilidad, pero con una voz muy baja.

El resto de la historia es esta: TK entonó en la sección de discusión largamente olvidada de su famoso artículo "No es sorprendente que heurística útil como la representatividad [. . .] se conservan, a pesar de que ocasionalmente conducen a errores en la predicción y la estimación. "Ahí está: los propios TK afirmaron que estos heurísticos son útiles y que no debería sorprendernos que la gente los use. Si la prueba de significación es -como he intentado mostrar- una versión formalizada de la heurística de la representatividad, todavía puede haber algo de vida en ella.

¿Y qué se entiende por "útil"? Una heurística es útil si produce juicios y elecciones suficientemente precisos a bajo costo. Hasta qué punto las pruebas de significancia y su valor de p hacen en este sentido todavía se está debatiendo. Después de algunos trabajos de simulación, estoy empezando a pensar que las pruebas de significación no son tan malas como parece.

Nota de trabajo Job, hombre de leyenda firme, se negó a rechazar la hipótesis de que Dios era bueno a pesar de la abrumadora evidencia de lo contrario.

En eigener Sache : registro todas mis publicaciones bajo la rúbrica 'vida social' y también bajo alguna otra. Como no hay una rúbrica de 'estadísticas', puede encontrar esta publicación bajo 'espiritualidad'. Buen trabajo Job.

Tversky, A., y Kahneman, D. (1974). Juicio bajo incertidumbre: heurística y sesgos, Science, 185 , 1124-1131.

Asociación suelta : si puede tolerar otra asociación "remota", ¿qué le parece esta ?: Las críticas de la prueba de significancia cargan que el método está sesgado contra la hipótesis nula, es decir, la idea de que no hay "nada" se acepta con demasiada facilidad . ¿Significa esto que la Hipótesis nula sufre de " sensibilidad de rechazo "?

Esta publicación fue escrita por fantasmas por Ovum Capu t, Ph.D.