Datos pequeños

Vamos a revertir nuestra estrategia para la recopilación de datos.

Actualmente, el carro de Big Data continúa cobrando impulso: aproveche todas las fuentes de datos disponibles a través de dispositivos móviles, sensores aéreos y remotos, cámaras, micrófonos, redes de sensores inalámbricos y demás. Los datos están ahí, esperando a ser cosechados para detectar tendencias y encontrar correlaciones. El enorme volumen de datos nos obliga a utilizar diversas formas de búsqueda y análisis basados ​​en computadora, incluido el aprendizaje automático. El enfoque de Big Data es emocionante ya que nos permite tomar cantidades masivas de información en cuenta. El enfoque de Big Data también es inquietante ya que enfrentamos nuestra insignificancia y admitimos que los algoritmos y las máquinas inteligentes saben mucho más de lo que podemos.

Anteriormente, describí algunas razones para estar incómodo con Big Data, la forma en que los análisis de Big Data seguirán las tendencias existentes, pero se pierden cambios sutiles pero importantes en la situación que vuelven obsoletas estas tendencias. Ese ensayo también planteó el problema de los datos faltantes. La gente a veces nota que algo NO sucedió, y la ausencia de un evento nos ayuda a dar sentido a una situación. Big Data generalmente cubre los eventos que ocurrieron e ignora los eventos que no ocurrieron, a pesar de que estas no ocurrencias pueden ser significativas.

Este ensayo, sin embargo, no se trata de limitaciones en Big Data.

En cambio, quiero sugerir que nos movemos en la dirección opuesta: tratar de recopilar la menor cantidad de datos posible, idealmente solo un punto de datos único, pero un punto de datos que cambia una decisión. En lugar de quedar ahogado en la sobrecarga de datos, hay momentos en que la observación correcta pondrá en foco las señales ambiguas.

Aquí hay unos ejemplos.

1. (Este ejemplo proviene de Trevor Hadley, un ex analista del gobierno de EE. UU.) En 2015, la CIA estaba tratando de decidir si Rusia y China iban a celebrar ejercicios navales conjuntos en el mar Mediterráneo. No hubo declaraciones oficiales. Las tendencias no estaban claras, la evidencia no fue concluyente. Luego, un analista externo, un superforecaster, se preguntó qué se necesitaría para reabastecer a una flotilla china y comenzó a buscar órdenes de compra en línea de los proveedores de barcos en Chipre. Encontró nuevas órdenes, pedidos enormes, de arroz y fideos donde ninguno había existido anteriormente. Para estar a salvo, también investigó los Avisos a los marineros de la guardia costera local y descubrió evidencias que lo corroboraban. Pero fue el arroz y los fideos lo que hizo el truco. Caso cerrado.

2. (Este ejemplo también proviene de Trevor Hadley.) En 2011, ¿tenían los franceses la intención de intervenir en la guerra civil en Libia? Los franceses negaron que siquiera estuvieran considerando tal intervención, pero la comunidad de inteligencia había aprendido a no tomarse demasiado en serio esas negaciones. Había razones para esperar que los franceses intervinieran. Intenta hacer un pronóstico fallido. Un mercado de predicción no fue útil. Luego, un analista de inteligencia descubrió una oscura afirmación en una directiva del servicio civil francés, un memorándum que proponía modificaciones a las reglamentaciones del seguro de vida para los miembros del ejército francés, enumerando países donde el ejército francés estaba actualmente activo, ¡incluido Libia! La nota fue retirada del sitio web en unos pocos días y reemplazada por una versión que omitió a Libia, pero ya era demasiado tarde. (Varios meses después, se confirmó la presencia de las fuerzas francesas combatiendo en Libia). Caso cerrado.

3. El gobierno de Estados Unidos quería pronosticar cómo votaría el Reino Unido sobre Brexit. (Lo mismo hicieron muchos, muchos otros países.) Los analistas examinaron minuciosamente las encuestas, buscando alguna información que inclinaría la balanza, pero los signos simplemente no eran lo suficientemente claros. Luego, un observador señaló que los estándares de la Unión Europea requerirían que las amas de casa británicas usen un método diferente para hacer té. Las teteras actuales para hervir el agua simplemente eran demasiado eficientes en energía, elevando innecesariamente la huella de carbono. La UE necesitaba un dispositivo más eficiente para hervir el agua, ¡pero eso tomaría cinco veces más! ¿Qué efecto tendría eso en invitar a un vecino a tomar una taza rápida? Caso cerrado.

4. En 1990, la comunidad de inteligencia de los EE. UU. Intentaba pronosticar si Saddam Hussein tenía la intención de invadir Kuwait. Algunos sintieron que se estaba preparando para atacar. Otros dudaban de que fuera tan temerario. Vieron su movimiento de 30,000 tropas en la frontera de Iraq / Kuwait como una táctica intimidatoria con la intención de intimidar a Kuwait para hacer concesiones. Los tipos usuales de evidencia no dieron lugar a ningún juicio concluyente. Los egipcios creían que habría una resolución pacífica de las quejas que Saddam Hussein formulaba contra Kuwait. También lo hizo el embajador de Estados Unidos en Iraq. Y lo mismo hicieron los kuwaitíes: incluso después de que Iraq había colocado a todas esas tropas en su frontera, Kuwait no movilizó a sus 18,000 soldados y permitió que muchos se fueran. ¿Qué iba a hacer Saddam Hussein? Un analista de inteligencia estadounidense, que trabaja en el Departamento de Energía, señaló que el ejército iraquí había requisado más de 10,000 camiones civiles. La eliminación de todos estos camiones podría tener efectos paralizantes en la economía iraquí, interrumpiendo todo tipo de actividades comerciales. Y este camión de comandantes se había mantenido en secreto, no había sido anunciado públicamente. No podía intimidar a los kuwaitíes porque no tenían idea de que se había hecho. ¿Por qué haría Saddam Hussein tal cosa a menos que de repente decidiera que necesitaba los camiones para una acción militar? Caso cerrado.

5. El problema de aceleración de Toyota fugitivo. Este problema hizo que los Toyota aceleraran de forma incontrolable, a pesar de los frenéticos esfuerzos del conductor por pisar el freno y frenar el automóvil. El caso recibió atención nacional. Algunos pensaron que el problema provenía de tapetes gruesos que atraparon el pedal del acelerador, pero el mal funcionamiento primario parecía ser un problema en el software. Los Toyotas contienen más de cien millones de líneas de código, por lo que algunos errores de software parecen inevitables. Cientos de casos de aceleración fugitiva fueron convocados. Toyota se vio obligada a pagar miles de millones de dólares en multas y acuerdos. Sin embargo, la comunidad de factores humanos tenía un diagnóstico diferente: los conductores estaban presionando erróneamente el pedal del acelerador pensando que era el pedal de freno. Cuando el automóvil se aceleró en lugar de frenar, los conductores percibieron que los frenos habían fallado y que la aceleración no era intencional e incontrolable. Los conductores, naturalmente, presionaron el pedal más y más fuerte, creyendo que era el freno, solo para ver que la aceleración empeoraba. No hay una manera fácil de probar esta explicación, con muchos debates de ida y vuelta sobre los datos. Pero resulta que hay dos argumentos asesinos. Una es que al examinar las cajas negras en los automóviles, los investigadores descubrieron que el pedal del freno no se había pisado en los casos de aceleración descontrolada. El segundo argumento del asesino proviene de un podcast de Malcolm Gladwell en la temporada 1 de su serie Revisionist History. Gladwell hizo arreglos para que la revista Car & Driver pusiera a prueba un Toyota Camry en una pista de prueba. Los conductores entrenados aplastaron el pedal del acelerador hasta el piso y luego, con el pedal del acelerador aún aplastado en el suelo, pisaron los frenos. El auto se detuvo. Prueba tras prueba, el auto se detuvo. No hay problema, no chillar, no fumar. Los frenos superaron fácilmente al acelerador. No es necesario revisar las estadísticas. No es necesario revisar los cientos de millones de líneas de código. Caso cerrado.

Estos ejemplos sugieren que menos es más. Que la calidad de la información importa más que la cantidad.

El término “Small Data” se usa de diferentes maneras estos días. Incluso hay un libro de investigación de mercado de Martin Lindstrom, Small Data: las pequeñas pistas que descubren grandes tendencias . Y una entrada de Wikipedia. Aquí hay algunos atributos que he identificado con respecto a Small Data.

En primer lugar, la mayoría de las referencias contrastan los datos pequeños con los grandes datos al afirmar que Small Data se trata de una conexión personal con una cantidad limitada de información, mientras que Big Data trata sobre la necesidad de que las máquinas inteligentes clasifiquen el volumen cada vez mayor de señales disponibles .

Segundo, Big Data trata principalmente de correlaciones, mientras que Small Data trata de relaciones causales.

En tercer lugar, la conexión personal fomentada por Small Data depende de la participación de la pericia y experiencia de una persona.

En cuarto lugar, el enfoque de Small Data tiene la intención de fomentar ideas (ver Klein, 2013) y transformar la mentalidad. Bonde señala este punto de manera explícita, que Small Data está destinado a ayudarnos a obtener ideas que podemos poner en práctica.

En quinto lugar, casi todos están de acuerdo en que Big Data y Small Data no son mutuamente excluyentes ni compiten. Podemos usar ambos enfoques.

En sexto lugar, hay una divergencia acerca de cómo buscar elementos significativos de Small Data. Algunos sugieren que debemos comenzar con Big Data y luego reducir la producción, crear registros y otros artefactos. No estoy entusiasmado con esa estrategia. En cambio, creo que el poder de los pequeños datos se produce cuando utilizamos nuestros modelos mentales para detectar o encontrar los datos críticos. Los cinco ejemplos en este ensayo ilustran el hábil descubrimiento de datos críticos, en lugar de condensar el resultado de un ejercicio de Big Data.

Séptimo, hay momentos en los que podemos apoyar a los tomadores de decisiones seleccionando algunos casos representativos de una población mucho más grande y luego damos detalles sobre estos casos. Por ejemplo, si un político está considerando cómo un aumento en el precio de la gasolina afectará a las personas de bajos ingresos, podría ser útil definir tres individuos específicos, por ejemplo, un anciano con un ingreso fijo que usa transporte público, una madre soltera que viaja entre dos o tres trabajos, y un jubilado voluntario con un grupo de la iglesia para llevar a los feligreses a diversos eventos sociales, médicos y relacionados con el bienestar.

En octavo lugar, se necesita experiencia para notar los puntos de datos críticos una vez que los encontramos. Se necesitan modelos mentales razonablemente sofisticados para apreciar cómo se puede poner en acción el punto de datos, para ver lo que nos ofrece.

Uno de los riesgos del enfoque de Small Data es que se puede utilizar indebidamente para recoger ejemplos y anécdotas que transmiten una impresión engañosa. Por lo tanto, el enfoque de Small Data debe usarse en el contexto de la evidencia existente. El enfoque de Small Data no elimina la obligación de los analistas de estudiar las variables relevantes. Escribí “Caso cerrado” al final de cada uno de los cinco ejemplos, pero en realidad los investigadores buscaron datos adicionales para confirmar o desmentir sus especulaciones. El enfoque de Datos pequeños, sin embargo, puede reducir la tendencia a acumular más y más datos simplemente para satisfacer las necesidades compulsivas de integridad. El enfoque de Datos Pequeños valora la significatividad de los datos sobre su acumulación.

Los ejemplos en este ensayo sugieren que debemos volver a dar forma a nuestros esfuerzos para recopilar información. En lugar de pasar la aspiradora por cada tidbit disponible, haríamos bien en dirigir nuestra recopilación de información hacia el sensemaking y el descubrimiento. Podríamos buscar señales de diagnóstico verdadero, anomalías y datos faltantes, eventos esperados que no sucedieron. Podemos estar atentos a “diferencias que marcan la diferencia”.

Referencias

Martin Lindstrom, Small Data: Las pequeñas pistas que descubren grandes tendencias. Nueva York: St. Marten’s Press.

Klein, G. (2013). Ver lo que otros no hacen: las formas notables en que obtenemos información . Nueva York: PublicAffairs.