Un nuevo tipo de clarividencia

Un padre entró a una tienda Target cerca de Minneapolis hace unos años, agarrando un puñado de cupones que Target había enviado a su hija adolescente promocionando ropa de bebé, ropa de maternidad y cunas. "¿Estás tratando de alentar a [mi hija] a quedar embarazada?", Se quejó el hombre al gerente.

Según un informe de Charles Duhigg del New York Times , el gerente de Target se disculpó por el vergonzoso error en el acto e incluso llamó al hombre para disculparse por segunda vez. Solo había un problema: Target no estaba equivocado después de todo. La niña de la escuela secundaria en cuestión, sin el conocimiento de sus padres, en realidad estaba embarazada.

El grupo de mercadotecnia de Target había intuido que la chica estaba esperando porque sus patrones de compra habían cambiado recientemente en formas que predecían -basada en el análisis Big Data de Target- que estaba entrando en su segundo trimestre. El análisis de datos de Target había descubierto, por ejemplo, que las mujeres que repentinamente dejan de comprar lociones perfumadas y sin perfume generalmente tienen cuatro meses de embarazo (a las mujeres embarazadas a menudo no les gustan los olores fuertes). Entonces Target comenzó a enviar cupones a esas mujeres, promocionando todas las cosas que necesitarían cuando dieran a luz.

Incluso, como en el caso de Minnesota, para las mujeres que todavía eran legalmente niños.

Además de servir como una advertencia sobre el uso de nuevas tecnologías sin pensar en las implicaciones, la historia de Target ilustra dos conceptos importantes sobre el comportamiento humano.

Primero, un comportamiento (cambio de lociones) puede predecir confiablemente otra acción posterior (dar a luz). Otro ejemplo, descrito en un artículo de 2013 en la revista Nature , mostró que el volumen de búsquedas en Internet del término "deuda" proporcionó una predicción estadísticamente significativa de las caídas a corto plazo en los precios de las acciones.

El siguiente cuadro compara el volumen de páginas vistas de Wikipedia del término "deuda" con el promedio industrial Dow Jones. El interés de la búsqueda de Wikipedia en la "deuda" sí tiene un cierto valor predictivo que predice caídas del mercado. Aquí, el comportamiento de búsqueda en Internet predijo el comportamiento de venta en el mercado de valores. (Quizás la gente esté preocupada por la búsqueda de deuda antes de vender acciones para pagarla).

Eric Haseltine/Wikipedia
Fuente: Eric Haseltine / Wikipedia

Este ejemplo ilustra la segunda lección importante que fluye de la experiencia de loción perfumada de Target: una "N" muy alta (gran cantidad de muestras), a través del poder de las estadísticas inferenciales, puede revelar relaciones sutiles pero consistentes entre un comportamiento humano y otro. El análisis de "deuda" que acabamos de presentar deriva de más de 200,000 vistas de páginas de Wikipedia.

Una forma de pensar en las predicciones de "Big-Data" derivado de la web es que Internet, junto con redes privadas de datos similares a Target, han instrumentado a fondo la especie humana, proporcionando métricas e ideas sobre el comportamiento en una escala sin precedentes. Por ejemplo, además de las enormes tiendas de datos privados acumulados por Target, Walmart, Amazon, Google y otros, cerca de 3.500 millones de personas ahora usan la Web, dejando una variedad de registros de su uso para el análisis de Big Data.

Un ejemplo reciente intrigante del poder que Big Data ha puesto en las manos de los científicos del comportamiento se encuentra en el ámbito de la ciencia política. Recientemente se hizo mucho de los errores de votación que produjeron tanta sorpresa en la victoria electoral del presidente Trump. Pero para aquellos con sus narices enterradas más profundamente en Big Data, la elección no fue una sorpresa en absoluto.

Mire la relación entre el volumen de búsquedas de Google (y para 2016, visitas a la página de Wikipedia) para los candidatos presidenciales antes de las elecciones de 2004, 2008, 2012 y 2016, y los eventuales ganadores de cada elección.

Eric Haseltine/Google Trends/Wikipedia
Fuente: Eric Haseltine / Google Trends / Wikipedia

En las cuatro elecciones, el ganador en el interés de búsqueda en Internet antes de la elección (personas buscando en Google a un candidato o revisándolas en Wikipedia) también fue el ganador de las elecciones. Presumiblemente, el nivel de curiosidad de los votantes sobre un candidato está relacionado con su probabilidad de votar por ese candidato.

Es importante observar, en este punto, que las correlaciones de Big Data están lejos de ser perfectas. En su libro " Correlaciones falsas" , Tyler Vigen, un graduado de la Facultad de Derecho de Harvard y consultor de gestión, ilustra una profunda verdad sobre las estadísticas: la correlación no prueba la causalidad.

Por ejemplo, Vigen muestra que existe una correlación casi perfecta entre el consumo de margarina per cápita y la tasa de divorcio en Maine. Sin embargo, pocos argumentarían que el consumo de margarina causa el divorcio, o viceversa.

Fuente: Tyler Vigen

Con una "N" extremadamente alta de fuentes de datos (literalmente miles de millones de bases de datos diferentes accesibles solo en la Web), las correlaciones aleatorias como esta no están destinadas a suceder, es seguro que sucederán.

Otras correlaciones "falsas" que Vigen ha descubierto incluyen:

  • Consumo de queso per cápita y el número de personas que mueren al enredarse en sus sábanas (una sorprendente cifra de más de 600 por año).
  • Personas que se ahogaron después de caerse de un barco de pesca y matrimonios en Kentucky.
  • Número de letras en la palabra ganadora en el Scripps National Spelling Bee y el número de muertes por mordeduras de araña venenosas.

Una de las correlaciones espurias de Vigen que me llamó la atención fue el fuerte vínculo entre las ventas de automóviles japoneses en los Estados Unidos y los suicidios en automóviles en los Estados Unidos.

Tyler Vigen
Fuente: Tyler Vigen

A primera vista, esta correlación de 93.5 por ciento entre las ventas de automóviles / suicidio parece ser el tipo de artefacto que esperarías cuando "sumerges" un patrón individual de series de tiempo (por ejemplo, ventas anuales de autos) en un océano de datos que contienen de todo, desde suicidios hasta consumo de queso a la tasa de matrimonio anual en Kentucky – algo en ese océano de datos está obligado, por azar, a coincidir con ese patrón.

Pero la historia de la ciencia es rica en ejemplos de descubrimientos aleatorios que a primera vista no tenían sentido. La fuerte evidencia del big bang apareció por primera vez como "ruido" inexplicable en un receptor de telecomunicaciones. La prueba de la teoría de la relatividad general de Einstein se encontró finalmente en una extraña anomalía en el momento del punto lejano (perihelio) de la órbita de Mercurio alrededor del sol. La penicilina se descubrió cuando Fleming observó un punto muerto inesperado en una placa de Petri de bacterias.

Así como la ley de los grandes números dicta que la analítica de "Big Data" descubrirá una plétora de correlaciones aleatorias, la misma ley también dicta que, de vez en cuando, la observación aleatoria descubrirá resultados inesperados, como un punto muerto en una placa de Petri, que merecen una mirada más cercana.

Después de haber trabajado en una compañía automotriz estadounidense durante el período de ascendencia japonesa en las ventas de automóviles, se me ocurrió que la relación entre la venta de automóviles y el suicidio de automóviles podría no ser tan aleatoria después de todo. Por un lado, el aumento de las ventas de automóviles japoneses se produjo a medida que disminuyeron las ventas de automóviles de marca estadounidense, lo que podría desencadenar la depresión en una fuerza de trabajo estadounidense desmoralizada.

Para explorar esta posibilidad, comparé las ventas de automóviles de marca estadounidense (línea azul a continuación) durante el mismo período del análisis de Vigen. La comparación sugiere un vínculo plausible entre el volumen de ventas de automóviles japoneses y los suicidios de EE. UU.

Tyler Vigen/USDT/Eric Haseltine
Fuente: Tyler Vigen / USDT / Eric Haseltine

Cuando las ventas de automóviles de marca estadounidense aumentaron en relación con las ventas de automóviles japoneses de 2000 a 2001, los suicidios en automóvil en Estados Unidos disminuyeron un poco más o menos un año después. Cuando las ventas de automóviles estadounidenses comenzaron a disminuir en 2001, los suicidios estadounidenses en automóvil aumentaron un año después, en 2002. Un año después de que las ventas de automóviles de marca estadounidense comenzaran a declinar en 2005, los suicidios relacionados con automóviles dieron un salto pronunciado.

Una posible razón por la que los suicidios en automóviles en Estados Unidos aumentaron después de una desaceleración en las ventas de automóviles en Estados Unidos es que esas caídas dejan a la gente sin trabajo en la industria automotriz y en los miles de negocios que dependen de la industria. Un artículo reciente en el American Journal of Preventative Medicine descubrió que las recesiones económicas probablemente aumentan los suicidios. Drs. Webb y Kapur, escribiendo en Lancet Psychiatry , mostraron que más de 40,000 suicidios por año se asociaron con el desempleo global en 2006 y 2007 y que la recesión de 2008 fue responsable de más de 4,000 suicidios en ese año.

En el siguiente cuadro, la línea marrón en la parte inferior representa el empleo total de EE. UU. En el sector de la automoción. Los empleos en los Estados Unidos efectivamente se evaporaron a medida que aumentaban las ventas de automóviles japoneses.

Tyler Vigen/USDT/Eric Haseltine
Fuente: Tyler Vigen / USDT / Eric Haseltine

Finalmente, los datos de los CDC indican que durante el declive de 10 años en las ventas de automóviles de marca estadounidense, la tasa de suicidios en Estados Unidos (línea verde a continuación) aumentó constantemente.

Tyler Vigen/USDT/USDL/CDC/Eric Haseltine
Fuente: Tyler Vigen / USDT / USDL / CDC / Eric Haseltine

A pesar de la posibilidad de una conexión real entre las ventas de autos japoneses y los suicidios en automóviles en los EE. UU., La fuerte disminución de los suicidios en 2009, cuando también hubo grandes caídas en el empleo en la industria automotriz y en las ventas de autos japoneses, sugiere que la relación entre automóviles las ventas, el desempleo y el suicidio por automóvil no son simples.

También vale la pena señalar que la cantidad de suicidios en automóvil cada año (alrededor de 100) puede ser demasiado pequeña como para sacar conclusiones firmes sobre los vínculos con el desempleo, las ventas de automóviles o cualquier otra cosa.

Además, la dificultad de determinar si un accidente automovilístico dado realmente fue un suicidio nubla aún más la imagen. Dado que la tasa de suicidios en Estados Unidos aumentó en 2009, mientras que los suicidios reportados en automóviles cayeron precipitadamente, la fiabilidad del suicidio por las estadísticas del automóvil es sospechosa. Los estudios de Phillips y colegas que muestran un aumento en las muertes de tráfico unos días después de suicidios bien publicitados sugieren fuertemente que los suicidios en automóvil, especialmente los suicidios "copiosos" que siguen rápidamente los informes de los medios de comunicación de suicidio, son significativamente menos denunciados.

A pesar de todas estas advertencias, merece la pena prestar atención a la historia de las ventas de autos / suicidios, porque nos enseña a no ignorar las correlaciones inesperadas de Big Data.

Cuando te paras a pensarlo, los hallazgos inesperados, como el descubrimiento de la penicilina, tienen un enorme potencial para cambiar las reglas del juego, precisamente porque no se ajustan a nuestra comprensión actual del mundo. Entonces, cuando nos topamos con lo inesperado, tenemos la oportunidad de cambiar radicalmente nuestra comprensión de la naturaleza … y de nosotros mismos.

Con ese espíritu, aquí hay algo inesperado sobre las perspectivas económicas futuras de Estados Unidos. En el cuadro a continuación, la línea azul muestra el producto interno bruto de los EE. UU. (PIB, un índice de producción económica) en los últimos 12 años, mientras que la línea roja irregular representa el volumen de búsquedas de Google de "feliz cumpleaños tardío". Me he retrasado deliberadamente los datos del PIB 6 meses después de las búsquedas de "Cumpleaños" para mostrar que hay una correlación muy alta (.96) entre el PIB y la gente buscando en Google "Feliz cumpleaños tardío" 6 meses antes (existe una correlación casi tan alta con "Feliz tardía" y "Feliz cumpleaños divertido").

Google Correlate
Fuente: Google Correlate

En otras palabras, para este conjunto de datos, al menos, el volumen de las búsquedas relacionadas con el saludo de cumpleaños (probablemente las personas que buscan saludos de cumpleaños en línea) es un fuerte predictor de 6 meses de la producción económica de EE. UU.

¿Es esta correlación espuria, como la conexión entre ahogamientos de barcos de pesca y matrimonios en Kentucky, o es sustantiva? La intuición dice que la correlación es espuria.

Ramon Espelt Photography/Shutterstock
Fuente: Ramon Espelt Photography / Shutterstock

Pero puedo pensar en la forma en que el enlace puede ser significativo. Por ejemplo, cuando las personas se preocupan por el despido en los próximos seis meses, ¿es menos probable que se tomen el tiempo para enviar saludos de cumpleaños? ¿Podrían los buscadores de Google, en conjunto, saber más sobre hacia dónde se dirige la economía que los economistas? ¿Y podría esta conciencia aparecer en los cambios en el comportamiento de búsqueda de Google muy por delante de las estadísticas económicas?

Vale la pena reflexionar … especialmente dado que las búsquedas de "feliz cumpleaños tardío" (ver la parte derecha de la tabla) recientemente han tenido una caída muy pronunciada.