Eres lo que “te gusta”

Qué dicen tus acciones en las redes sociales sobre ti.

El viernes, Facebook prohibió Cambridge Analytica (CA). Hemos estado hablando sobre el rol que jugó el enfoque publicitario exclusivo de CA en las elecciones presidenciales de 2016 desde justo después de las elecciones. Esta prohibición mucho más reciente se produjo debido a una infracción del protocolo de gestión de datos (que cubre ampliamente cómo se obtienen, transfieren y almacenan los datos), NO por la forma en que se utilizaron esos datos. Un investigador académico (Aleksandr Kogan) obtuvo la información solicitando a los usuarios que opten por una aplicación diseñada para calcular la personalidad de los usuarios de su patrón de comportamiento en Facebook. El problema comenzó cuando el Dr. Kogan decidió proporcionar los datos a otra persona. CA ha sido excluido de Facebook no porque hayan accedido y utilizado los datos, sino porque no han utilizado los canales adecuados para hacerlo. Facebook descubrió la ruptura en el protocolo de administración de datos y solicitó a CA eliminar los datos. CA estuvo de acuerdo, pero luego Facebook averiguó por un delator que habían mentido, y ahora CA está prohibido.

Blogtrepreneur/flickr

Fuente: Blogtrepreneur / flickr

Pero lo que está recibiendo más atención es CÓMO se usaron esos datos. La medida en que comportamientos en línea aparentemente inofensivos se pueden utilizar para predecir las características de los usuarios es impactante para la mayoría de la gente. Dicha predicción y orientación ocurre todos los días, cada vez que participa en un comportamiento que puede vincularse con su identidad (ya sea en línea, a través de perfiles de redes sociales que rastrean individuos en sitios web comparando direcciones de correo electrónico o cookies del sitio, o en el “mundo real”, compras realizadas en diferentes tiendas usando diferentes tarjetas bancarias y de crédito que combinen las agencias de informes de crédito). La mayor parte de esta predicción ocurre en segundo plano, ya que los consumidores rara vez piensan en ello, y el consentimiento para la recopilación y el uso de datos existe en la letra pequeña de los acuerdos de usuario que la mayoría de nosotros hacemos clic sin pensar.

Qué dicen tus “Me gusta” sobre ti

Entendemos fácilmente que algo así como la orientación política puede adivinarse al ver que a una persona le gusta o sigue a ciertos políticos u organizaciones. Si un investigador llegara a inferir orientación política por parte de los políticos que una persona apoya, llamaríamos a esa cara datos válidos . Es decir, la medida (los políticos apoyados) está claramente relacionada con lo que estamos tratando de predecir (orientación política).

Lo que es menos intuitivo es que la mayoría, si no todos, de sus atributos personales pueden adivinarse (aunque sea imperfectamente) mediante CUALQUIER información que se conozca sobre usted. Las medidas no necesitan ser válidas para proporcionar estimaciones precisas. Si podemos establecer que una cosa está relacionada consistentemente con otra, no importa si ese vínculo es obvio o causal. Todo lo que importa es que el enlace existe, y ahora podemos usarlo para hacer predicciones. Esto se conoce comúnmente como un enfoque de medición empírico, ascendente o basado en datos. Reunir MUCHAS de estas informaciones débiles (pero no nulas) nos permite hacer inferencias válidas. Este es un ejemplo del principio de agregación : más datos siempre son mejores, incluso si algunos o todos esos datos son de mala calidad. Por supuesto, necesita menos datos de alta calidad para obtener la misma precisión de predicción; pero si los datos de alta calidad pueden ser sospechosos (por ejemplo, preocupaciones acerca de mentir en medidas directas, válidas) o simplemente no están disponibles (por ejemplo, medidas en profundidad de millones de usuarios de Internet), muchos datos bajos los datos de calidad funcionarán bien.

Un artículo de hace unos años dirigido por Michal Kosinski (resumido bastante bien por Stephen Colbert) demostró cómo se podían construir tales medidas no válidas para la cara a partir de los Me gusta de Facebook. Utilizando una computadora para probar todas las combinaciones posibles de cada uno, como para predecir cada rasgo de personalidad o resultado demográfico, los investigadores pudieron estimar de manera eficiente la personalidad, la orientación sexual, la afiliación política y más de los usuarios. Una vez que estos algoritmos se desarrollan en un grupo de personas donde los investigadores conocen el estado real de los resultados que les interesan (a menudo denominado muestra de capacitación o desarrollo), pueden aplicarse a personas nuevas cuyos resultados son desconocidos. Puedes probarlo usando tus propios datos de Facebook o Twitter. (Este sitio web NO ESTÁ AFILIADO con el investigador implicado en el escándalo de CA, y no hay ninguna razón para sospechar que estas personas hayan hecho o harán algo indebido con su información, pero aún así considere que cada vez que le da acceso a sus datos, ellos tienen su datos.)

Ejecutar mi perfil de Facebook a través del algoritmo de predicción muestra con precisión que soy mujer (uno de mis predictores principales: mi gusto por Vin Diesel), competitivo (porque me gusta Sephora), y realmente bastante inteligente (lo cual estoy de acuerdo, porque me gusta Will Smith). Pero no es perfecto. El algoritmo adivina incorrectamente que estoy triste (juro que no, porque me gusta Rob Zombie). También es interesante cómo este enfoque lleva a los mismos predictores que se utilizan para informar múltiples características: mi gusto por Starbucks y Barack Obama aparece como factores que contribuyen en casi todas las predicciones sobre mí. Sin embargo, el objetivo de estos algoritmos no es la predicción perfecta para cada persona. Se trata de recopilar y usar datos en una escala masiva, de modo que, en promedio, los anuncios políticos y corporativos se puedan orientar de manera más eficiente (ahorrando dinero y maximizando el impacto) y, desde una perspectiva académica / científica, podemos ahorrarle a los participantes tiempo haciéndoles cientos de preguntas que podrían estimarse a partir de sus datos existentes, siempre y cuando estén dispuestos a compartirlo.

Referencias

Kosinski, Stillwell, y Graepel (2013). Los rasgos y atributos privados son predecibles a partir de los registros digitales del comportamiento humano. Procedimientos de la Academia Nacional de Ciencias.