El Statsman siempre llama dos veces

Echemos otro vistazo al patrón de resultados.

Matej Kastelic/Shutterstock

Fuente: Matej Kastelic / Shutterstock

Aquellos de ustedes que prestan atención a la escena en la ciencia de la psicología saben que otro espectro está vagando por las calles, y su nombre es Failure to Replicate . La mayoría de los hallazgos, según nos dicen los vigilantes y vigilantes, son falsos, en psicología, medicina y el Señor sabe dónde más. Las razones son muchas, pero cerca de la parte superior de la lista encontramos chanchullos humanos. En conjunto, estos chanchullos son conocidos por el epíteto de p-hacking . La “p” representa el valor p que se obtiene de las pruebas de significación estadística, y el “pirateo” se refiere a un conjunto de prácticas (auto) engañosas que deprimen estos valores p por debajo del umbral convencional de .05 para que los investigadores puedan declarar un resultado significativo en el sentido de que la hipótesis nula de ruido hace que los datos obtenidos sean poco probables.

Si contemplamos un solo estudio con un valor p de, por ejemplo, .03, no podemos, a partir de este resultado solo, concluir que fue pirateado. Necesitaríamos cierta información sobre cómo los investigadores hacían su trabajo, o necesitamos los resultados de los estudios de replicación para buscar patrones reveladores. Si hay un intento de replicación y produce p = .07, sería tan temerario declarar nulo el hallazgo original como lo sería declarar la victoria sobre la hipótesis nula después del primer estudio solo. Se necesitan más datos (a medida que escriben estos días).

Supongamos que tenemos múltiples estudios de replicación. Ahora la trama se complica. Podemos observar la distribución de los valores de p y desplegar las herramientas de análisis de la curva p (Simonsohn, Nelson y Simmons, 2014). La idea básica es que bajo cualquier conjunto de supuestos racionales, la distribución de frecuencia de los valores p puede ser sesgada, pero sería unimodal. No debe haber picos locales, y no debe haber un pico particular en el área dulce entre .05 y .01, el área que produce importancia y ahorra recursos. Este pico local sería sospechoso porque sabemos que la distribución del valor p es plana (uniforme) bajo una hipótesis nula verdadera y cada vez más sesgada (con valores p más pequeños) bajo una hipótesis nula falsa (Krueger & Heck, 2018) .

El análisis de la curva P no explota la información disponible. Al analizar un conjunto de estudios, también tenemos, o podemos calcular, información sobre el tamaño de la muestra (o grados de libertad) y el tamaño del efecto. Sobre los estudios, las intercorrelaciones entre los valores de p, el tamaño de la muestra (df) y el tamaño del efecto (ES) pueden ser reveladores o al menos pueden, como dicen los expertos contemporáneos, “plantear preguntas”.

Para ilustrar el potencial de este tipo de enfoque [y puede que no sea novedoso], utilizo datos de una publicación de Lasaletta et al. (2014), una vez más, no para impugnar a los autores, sino para probar un tipo de análisis de patrones estadísticos. Los autores intentaron probar la interesante hipótesis de que estar en un estado de ánimo nostálgico reduce la necesidad y la apreciación del dinero. En seis estudios, encuentran que la nostalgia aumenta la disposición a pagar por los productos, aumenta la generosidad en el juego de un dictador, reduce la importancia percibida del dinero, reduce el valor percibido del dinero, aumenta la disposición a soportar estímulos adversos por una cantidad determinada de dinero , y reduce el tamaño percibido de ciertas monedas. Los seis valores p son .031, .020, .045, .027, .062 y .026. Observe la agrupación en el área dulce entre .05 y .01, con una excepción tolerable. Esto solo proporciona motivos débiles para preocuparse porque los autores podrían haber predicho un tamaño de efecto medio en todo, haber realizado un análisis de poder y recopilado la muestra aconsejable (pero no informan que hayan hecho nada de esto). Los tamaños del efecto son .55, .48, .46, .48, .37 y .63. Son medianos (donde d es alrededor de .5, siendo d la relación de la diferencia entre las medias sobre la desviación estándar dentro del grupo). Pero también hay variación en el df (tamaño de la muestra), a saber, 67, 125, 81, 98, 102 y 56.

Ahora podemos intercorrelacionar p, df y ES, y preguntar si los resultados “generan preguntas”. Esto es lo que obtenemos: Primero, la correlación entre los valores de p y ES, r (p, ES), es -.71. Los tamaños de efectos más grandes van con valores p más pequeños. Esto es lo que esperaríamos si hubiéramos predicho el mismo efecto de medio para los seis estudios, lo que resultó en el mismo análisis de potencia y la misma df. Entonces ES, no siendo perfectamente idéntico en estudios, se correlacionaría negativamente con p. Segundo, la correlación entre el tamaño de la muestra (df) y el tamaño del efecto (ES), r (df, ES), es -.68. Los ES más grandes van con muestras más pequeñas. Esto es lo que esperaríamos si se hubieran pronosticado las diferencias en ES y los análisis de poder hubieran dado diferentes recomendaciones para el tamaño de la muestra. Por lo tanto, tenemos una correlación, r (p, ES), que tiene sentido si se hubiera pronosticado una ES media y una constante para que df pueda ser constante. Y tenemos otra correlación, r (df, ES), que tiene sentido si se hubiera predicho la variación en ES, de modo que las pequeñas muestras serían suficientes para los grandes efectos esperados. Es uno u otro, no ambos.

Tener dos correlaciones en conflicto “plantea preguntas” sobre el tercero, la correlación entre df y p. Encontramos que r (df, p) = .03. Las muestras más grandes pueden producir los mismos valores de p (en promedio) que las muestras pequeñas si se hubieran pronosticado las diferencias en ES y los análisis de potencia hubieran arrojado diferentes tamaños de muestra. En otras palabras, precisa

las predicciones de potencia reducen el rango de los valores de p obtenidos y los desacoplan de df.

Para revisar, ES se correlaciona negativamente con p, y df. Es decir, a medida que aumenta el tamaño del efecto, tanto los valores de p como los tamaños de muestra se reducen. Este es el resultado conflictivo. Nuevamente, podemos imaginar cómo a medida que aumenta la ES, p se hace más pequeña sin un cambio en df. Y podemos imaginar cómo a medida que aumenta la ES, la df se hace más pequeña sin mucho cambio en la p. Pero no podemos imaginarnos a los dos al mismo tiempo. Ahora podemos preguntar qué tipo de correlación entre p y df tenemos derecho a esperar si no hubo diferencias en la ES que se correlacionaran negativamente con p y con df. La correlación parcial entre p y df, controlando para ES es -.89. Entonces, si se desconoce la variación en ES, las muestras más grandes producirán valores de p más bajos. Esto no sucedió aquí, y plantea la pregunta: ¿Por qué hay una variación considerable en df con el resultado de que df no está relacionado con p?

Un analisis alternativo

Respondiendo a este ensayo, Uli Schimmack propuso este análisis:

La prueba de varianza insuficiente es la prueba más poderosa de sesgo de publicación (o algunos otros QRP sospechosos).

Paso 1
Convierta los valores p en puntuaciones z, usando z = -qnorm (p / 2)

p = c (.031, .020, .045, .027, .062, .026)
z = -qnorm (p / 2)
z
[1] 2.157073 2.326348 2.004654 2.211518 1.866296 2.226212

Paso 2
Calcular la varianza de las puntuaciones z
var.z = var (z)
var.z
[1] 0.02808286

Paso 3
compare la varianza observada con la varianza esperada (desviación estándar de las puntuaciones z = 1)
pchisq (var.z * (k-1), k-1) con k = número de valores p (6)

> pchisq (var.z * 5,5)
[1] 0.0003738066

Conclusión: la probabilidad de que los valores de p se deriven de un conjunto de estudios independientes es muy pequeña, p = .0004.Fisher observó hace mucho tiempo, “[e] l principio político de que las estadísticas pueden probar cualquier cosa surge de la práctica de presentar solo un subconjunto seleccionado de los datos disponibles ”(Fisher 1955, p. 75) [gracias a Deborah Mayo por la cita]

https://replicationindex.wordpress.com/…/the-test-of…/

Referencias

Krueger, JI, y Heck, PR (2018). Pruebas de significación de pruebas. Collabra: Psychology, 4 (1), 11. DOI: http://doi.org/10.1525/collabra.108.

Lasaletta, JD, Sedikides, C., y Vohs, KD (2014). La nostalgia debilita el deseo de dinero. Revista de investigación del consumidor, 41 , 713-729.

Simonsohn, U., Nelson, LD, y Simmons, JP (2014). P-curve: Una clave para el archivo-cajón. Revista de psicología experimental: general, 143, 534–547