Cuidado con pequeñas mayorías

Galton En una publicación reciente argumenté que, aunque se puede decir mucho sobre la racionalidad básica de la conformidad humana (y no humana), también puede haber problemas. El ejemplo du jour fue un concurso de belleza. Con demasiadas opciones para copiar entre las mujeres (las mujeres eligen a los hombres a quienes eligen otras mujeres), tanto las mujeres como los hombres pueden sufrir, en promedio.

Otra limitación es el tamaño de la mayoría que se está copiando. Supongamos que está intentando estimar el número de canicas en un frasco de vidrio. Hay más canicas de las que puedes contar. Sin embargo, puede adivinar utilizando su impresión del tamaño del frasco y el tamaño de los mármoles individuales. Ahora supongamos que le dicen que otras 100 personas ya hicieron estimaciones independientes entre sí y que el 95% de estas estimaciones caen entre 700 y 800. Con el beneficio de esta información, su mejor estrategia es estimar que hay 750 mármoles en el tarro. Si calculó el número como 200, se reconocería como un valor atípico, cuyo juicio no debería ser confiable. Usar la información agregada de las estimaciones de los demás es como usar la línea de vida "encuestar al público" sobre "¿Quién quiere ser millonario?". ¿Pero qué pasa si calcula que el número de canicas es 200 antes de conocer las estimaciones de los demás? Una vez que descubras qué tan lejos estás del resto del grupo, no deberías objetar cuando se elimine tu estimación como un valor atípico.

Como regla general, es más fácil identificar valores atípicos a medida que aumenta el número de observaciones y a medida que la varianza o estas observaciones disminuyen. Ahora supongamos que solo hay otros dos que dieron una estimación alta, mientras que dieron una estimación baja. ¿Debes conceder graciosamente la idea de que sus estimaciones son probablemente más precisas que las tuyas porque coinciden, mientras que no estás de acuerdo? Este es un pensamiento tentador. Tal vez el acuerdo revela exactitud incluso cuando el número de personas que acordaron está en su mínimo lógico.

Ahora argumentaré que el acuerdo es un mero proxy de la precisión, y no un buen ejemplo en particular. Es cierto que si todos los juicios son precisos, todos estarán de acuerdo el uno con el otro. Lo contrario, sin embargo, no es cierto porque los juicios pueden estar de acuerdo por razones que no tienen nada que ver con la precisión. Una de estas razones es el azar.

La forma alternativa de proceder es usar los tres juicios (los tuyos y los juicios de los otros dos) y calcular el promedio. El promedio es la mejor estimación del parámetro latente que todos ustedes están tratando de capturar. De acuerdo con este enfoque, cada uno de los tres jueces es un instrumento de medición independiente y cada juicio individual es un compuesto de información (verdad) y ruido (error). Se supone que los errores son independientes entre sí, y promediar los juicios los descarta.

Ahora tenemos dos recomendaciones en competencia sobre cómo proceder si hay dos juicios altos y uno bajo. (A) Elimine el bajo juicio o persuada al juez distante para unirse a la mayoría; (B) promedie los tres fallos sin perjuicio contra ninguno de ellos. Cada método tiene sus defensores. El argumento principal para A es que la estimación baja es "obviamente" y atípica y que el acuerdo indica exactitud [ya he cuestionado esta idea]. Además, los partidarios de A creen que la discusión de búsqueda de consenso entre los jueces siempre es saludable. A través de la discusión, los jueces pueden acercarse a la verdad. ¿Pero cual verdad? Si los dos jueces superiores conceden un poco y el juez bajo concede mucho, el resultado podría ser el promedio que ya se calculó a partir de los juicios originales. Si es así, la discusión grupal fue un desperdicio. Alternativamente, si solo el juez distante lo admite (lo que es probable que ocurra bajo presión de conformidad asimétrica), el resultado es lo que se obtendría simplemente ignorando el valor atípico. Una vez más, la discusión grupal fue una pérdida de tiempo y adrenalina. Una tercera posibilidad es que el juez distante conceda un poco más que los dos jueces acordados juntos. El resultado es un juicio grupal que puede describirse como un promedio ponderado donde cada peso individual es proporcional a la proximidad del juicio con respecto a la media general. Esto suena bien como una buena idea, pero nadie sabe cuáles deberían ser exactamente los pesos. Hay muchos puntos entre las estrategias puras A y B, donde el juicio ponderado puede terminar. Por lo tanto, consideraré solo A y B en el resto de este ensayo.

Al utilizar dos principios estadísticos, podemos determinar si A o B son la mejor estrategia sin recurrir a la intuición, verosimilitud o tradición (¡siempre lo hemos hecho de esta manera!). El primer método es preguntar qué tan probable es el conjunto de tres juicios observados si suponemos que A o B son correctos. Supongamos que los tres juicios son 2, 2 y -2. Piense en estos números como una muestra extraída de una población con una desviación estándar de 1. En contraste con la distribución normal estándar, sin embargo, la media no es 0. En cambio, la media es o bien 2 si suponemos que la teoría A es correcta, o es .667 (2/3) si la teoría B es correcta. La probabilidad conjunta de encontrar 2, 2 y -2 (o números más extremos) resulta ser .000008 bajo la teoría A y .00003 bajo la teoría B. La relación de este último respecto de la primera es 3.75, lo que significa que si ambos las teorías se consideraron igualmente probables como verdaderas desde el principio, la teoría B tiene casi cuatro veces más probabilidad de ser verdadera que la teoría A. Este resultado significa que si elimina el juicio remoto (o persuade al juez disidente) para cambiar de opinión, pierde información importante y el juicio grupal resultante empeora.

El segundo método es preguntar qué pasaría si se obtuvieran más juicios de otros observadores independientes [¡nótese que no es necesario obtener realmente esos juicios!] Ahora suponemos que la población de números que subyace en todos estos juicios es una norma estándar (M = 0, SD = 1). Por lo tanto, el conjunto de números asociados con la teoría A después de la eliminación o corrección atípica (2, 2, 2) es extremadamente positivo. Si se tomara como muestra de la población otro conjunto de tres juicios, la media resultante probablemente estaría entre 0 y 2, y más cerca de la última, en la medida en que el proceso de medición sea confiable. Como la medición nunca está completamente libre de error, esperamos cierta regresión a la media. Asumiendo el conjunto de números dados por la teoría B (2, 2, -2), la media de la segunda muestra de tres juicios probablemente estaría entre 0 y 2/3, y debido a que 2/3 es menos extremo que 2, el tamaño del efecto de regresión esperado es menor en la teoría B que en la teoría A.

Como muestra este ejercicio, ignorar (o intimidar) los valores atípicos en una muestra pequeña no corrige el conocido efecto de regresión en la medición; en cambio, lo empeora. La mejor estimación según la teoría B (2/3) es probablemente un poco más alta de lo que sería después del muestreo continuo. En todo caso, esta estimación debería reducirse. Al cortar el valor atípico, sin embargo, movemos la estimación del grupo de 2/3 a 2. Al hacer la estimación más extrema, estamos haciendo que sea más probable que se infle positivamente.

Vamos a ilustrar el efecto de regresión con números concretos. Si asumimos de manera optimista que los juicios son altamente confiables (r = .9), se predice que un juicio promedio de 2 (la media de 2, 2 y 2) se replicará como un promedio de 1.8. En comparación, se predice que un juicio promedio de 2/3 (la media de 2, 2 y -2) se replicará como .6. Tenga en cuenta que, en virtud de su mayor extremidad, el juicio anterior resulta ser más inflado que el segundo. Sin embargo, según la opinión de que el acuerdo deletrea exactitud, el juicio anterior es el mejor. Si asumimos más pesimistamente que los juicios solo tienen una confiabilidad modesta (r = .6), los efectos de regresión son más grandes pero muestran el mismo patrón. Un promedio original de 2 regresiones a un valor predicho de 1.2, y un promedio original de 2/3 regresa a un valor predicho de .4.

Para que no pienses que esta historia es demasiado abstracta y que las teorías A y B no hacen, no te olvides de todos modos, déjame enfatizar que importan mucho cuando los comités pequeños deciden admisiones, financiación, ascensos, etc. Considera a 100 candidatos que solicitan dinero Hacer una investigacion. Cada propuesta es evaluada por tres jueces y los puntajes de cada juez están estandarizados. Solo los mejores pueden ser financiados. Una propuesta con calificaciones de 2, 2 y 2 es segura, pero una propuesta con calificaciones de 1, 1 y 1 no lo es. Ahora una tercera propuesta es del tipo discutido anteriormente (2, 2, -2). De acuerdo con la teoría B (promediación simple), esta propuesta no hace el corte. De acuerdo con la teoría A (eliminación de valores atípicos), esta propuesta se eleva por encima de la segunda, y posiblemente evita que se financie. Entonces la discusión grupal puede causar mucho daño. Si, como en este ejemplo, los puntajes relativamente altos son de mayor interés, las propuestas (personas) con un valor atípico negativo serán favorecidas selectivamente. En un contexto de financiamiento o promoción, nadie está interesado en casos con dos puntajes bajos y un puntaje alto.

La regresión también afecta las decisiones discretas. Cuando 3 jueces votan unánimemente para financiar un proyecto (promover a un colega, o exonerar a un sospechoso), es incauto concluir que todos los demás estarían de acuerdo si se lo piden. La probabilidad verdadera de 'aye' es [probablemente] menor que su probabilidad en la muestra si esta última es alta. Si, por ejemplo, la verdadera probabilidad es .9, entonces la probabilidad de que una muestra de 3 jueces independientes (es decir, sus juicios no estén correlacionados) sea unánimemente favorable es .73. En otras palabras, los eventos raros (aquí: votos negativos) estarán subrepresentados en muestras pequeñas. Habiendo observado una muestra de 3 jueces unánimes, es probable que el verdadero consenso sea menos que perfecto. ¿Pero qué tan imperfecto es? ¿Cómo sabemos cuánto de una corrección hacer?

En este ejemplo, he supuesto que, en verdad, p = .9, pero p podría tener cualquier valor distinto de 0 [porque si p fuera 0, no podría ocurrir el voto]. La solución elegante, propuesta por Laplace, es profesar ignorancia; es suponer que, al principio, todos los valores de p son igualmente probables. Después de observar una muestra, podemos preguntarnos qué tan probable es que esta muestra se extraiga de cada posible valor de p. Claramente, una muestra de 3 votos afirmativos fue más probable que se dibujara si p = .99, seguido de p = .98, y así sucesivamente a p = .01. Uno necesita un cálculo integral para hacer esto bien, pero bajo la suposición de la ignorancia, todo se reduce a una fórmula simple y hermosa. La mejor estimación, es decir, la estimación que minimiza los errores de regresión y los errores del tipo opuesto, es (k + 1) / (n + 2), donde k es el número de "éxitos" [aquí, sí los votos] y n es el tamaño de la muestra. Después de haber observado 3 votos afirmativos y ningún desacuerdo, la estimación de Laplacia del verdadero apoyo en la población es de 4/5, o p = .8. Ignorar a Laplace y estimar p = 1 es cometer un error de regresión que es un quinto del tamaño estimado. Si la muestra fuera más grande y aún se observara la unanimidad, sería más firme el supuesto de una verdadera unanimidad [por ejemplo, si 30 de los 30 jueces incluidos en la muestra votan sí, la estimación de p es 31/32 o .969].

Regresemos a los paneles sin una unanimidad perfecta. Si los 29 eyaculadores excluyen a un oyente o inducen un cambio de opinión, la presunción de unanimidad enmascara un considerable efecto de regresión (.094 = 1-.906). La misma estrategia de exclusión o influencia social produce un error de regresión mucho mayor en una muestra pequeña. Si 2 afirmativos excluyen o convierten un disidente, el error es .4 (1-.6, donde .6 es (2 + 1) / (3 + 2).

La lógica de medición, integración de datos y corrección por error probable es difícil de vender. Muchas personas tienen una aversión al crujido de números porque parece mecánico. Parece mucho más humano tener una conversación entre personas razonables y llegar a un consenso. El consenso se siente bien. Los miembros de la mayoría, que probablemente prevalecerán, pueden disfrutar de la creencia de ser tanto objetivamente correctos como persuasivos desde el punto de vista social (habiendo puesto a un disidente en línea recta). El anterior disidente tiene al menos la poca satisfacción de ser aceptado por el grupo. Los 3 jueces probablemente duerman bien esa noche, sin darse cuenta de que han cometido una injusticia. En el ejemplo original, un buen caso sin varianza inicial (1, 1, 1) ahora se ubica debajo del caso que pasó de (2, 2, -2) a (2, 2, 2). En un contexto de financiamiento, donde hay una línea divisoria entre la vida y la muerte, uno de los casos que disminuyó un poco porque el caso revisado se elevó, cruzará esa línea. La irracionalidad puede generar injusticia.

Podemos concluir que en el tipo de entorno de toma de decisiones considerado aquí, es racional (y ético) tratar cada juicio como una muestra independiente de uno como lo sugiere la teoría B. Si los juicios son continuos, deben promediarse. Si los juicios son discretos, deben convertirse a proporciones. Ambos tipos de estimación pueden corregirse por probable error de muestreo para combatir los efectos de regresión. No es ciencia de cohetes, y las personas que se someten a ser juzgadas merecen ser tratadas con los mejores estándares.

Por cierto, el caballero en la foto es Sir Francis Galton.