Cómo Cambridge Analytica utilizó los datos para influir en los votantes

Por qué solicitar información personal con información errónea es un gran problema.

Si miramos hacia atrás en el uso de análisis de redes sociales en las elecciones de Obama, bien podríamos preguntar, ¿cómo es diferente de la campaña de Trump con la firma de investigación Cambridge Analytica? ¿Esto se trata de la violación de Cambridge Analytica de la política de Facebook o es esto un problema mayor que eso?

En enero de 2013, escribí sobre cómo el presidente Obama utilizó de manera efectiva las redes sociales en las campañas presidenciales de 2008 y 2012, y comparó las habilidades de medios sociales de su equipo con la capacidad de Kennedy para usar la televisión. Mientras que Kennedy tenía muchos talentos innatas, como carisma y buen cabello, que le permitieron proyectarse bien desde la lente hasta las pantallas de televisión en casa, el equipo de Obama puso a trabajar la psicología social a través de las redes sociales. En 2016, la gente de Trump recurrió a los datos.

Pamela Rutledge/Shutterstock

Fuente: Pamela Rutledge / Shutterstock

Estamos en la era de la ciencia de datos. La capacidad de recopilar datos de varias plataformas de redes sociales, capturar patrones de comportamiento del usuario y comentarios no tiene precedentes. Ha generado una gran demanda de científicos de datos de primer nivel, que están descubriendo cómo cosechar y analizar grandes cantidades de datos, creando algoritmos que eliminan y responden, y construyendo modelos predictivos. Su caja de herramientas es una mezcla impresionante de aprendizaje automático, estadísticas, habilidades de programación robustas e inteligencia artificial y natural, y todos intentan capturar e influenciar el comportamiento humano de maneras cada vez más matizadas y específicas.

Cualesquiera que sean las comparaciones entre Obama y Trump, son pistas falsas. Es el acceso y el uso de los datos lo que está en el centro de este debate público. Esto no va a desaparecer. Solo se volverá más sofisticado y omnipresente. No es nada malo, ni todo bien. Este es un momento clave de la enseñanza, una oportunidad para comprender mejor algunos de los temas éticos y legales clave en torno a la minería de datos, si no caemos en el agujero del dedo acusador político.

Aún así, muchos querrán hacer comparaciones. Cuatro años es literalmente una vida en la evolución de la ciencia de datos. Las capacidades y el clima social son diferentes en comparación con lo que estaba sucediendo en 2008 y ciertamente en 2012. Las herramientas y la capacidad de recopilar y evaluar datos son ahora mucho más sofisticadas, tanto desde el punto de vista tecnológico como teórico, de lo que el equipo de Obama pudo utilizar.

Pero, lo que es más importante, el clima social ha cambiado y, junto con él, la conciencia de las violaciones de datos y la comprensión del uso de datos para violar la privacidad, incluido un aumento de las normas y regulaciones éticas. Las personas son cada vez más conscientes de cómo se usan los algoritmos de datos en función de nuestros comportamientos en línea, desde las recomendaciones de Amazon hasta los anuncios orientados que nos siguen de un sitio a otro. La transparencia, el permiso y el mantenimiento de la privacidad -para la seguridad y para evitar la manipulación- han sido temas principales de los denunciantes y del discurso social.

Uno de los grandes problemas con la controversia de Cambridge Analytica se centra en cómo se recopilaron los datos. Según los informes, en el New York Times y en otros lugares, Cambridge solicitó información personal a través de una aplicación con divulgación engañosa sobre el propósito y la intención. Los solicitó varios tipos de información, algunos de los cuales parecen inofensivos, como carreras universitarias y afiliación política, pero la aplicación también incluyó preguntas de evaluación de la personalidad para generar perfiles de personalidad.

Ahora, ¿por qué es esto un gran problema? Ya sabemos que es posible estimar un perfil de personalidad a partir de un conjunto de datos de texto o codificando el perfil de alguien en Facebook, como lo han demostrado los investigadores. El problema es que es difícil hacerlo a escala. Debe tener una gran cantidad de texto de cada participante, lo que se vuelve extremadamente costoso y laborioso para un grupo de cualquier tamaño. Donde los investigadores en psicología pueden ver a un grupo de participantes de 200 y ser felices como las almejas con su generalización, esto no lo reduce a la persuasión del votante. Sin embargo, el deseo de hacer un perfil psicológico de las audiencias meta tiene un gran atractivo ya que brinda información valiosa que actualmente no está disponible públicamente. Varias firmas de investigación están trabajando en soluciones, utilizando técnicas analíticas como Natural Language Processing o aprovechando el poder de Watson de IBM, pero actualmente se usan en grupos pequeños para fines de recursos humanos (con permiso de los participantes) o en conjunto, “ciegos” a identidades individuales. Sin embargo, lo más importante es que estas son estimaciones, aunque algunas son mejores que otras, pero no son lo mismo que el perfil de personalidad que se obtiene al hacer que las personas tomen medidas validadas de pruebas psiquiátricas. (Para su información, algunos argumentan que, dado que las pruebas de personalidad son autoinformes, en realidad son menos precisas que los perfiles estimados a partir de datos, pero dejo eso a quienes tienen más experiencia en las trincheras de evaluación para luchar).

Huelga decir que es mucho más fácil obtener perfiles de personalidad de un montón de personas si una empresa puede hacer que la gente se haga una prueba de personalidad. Si no le dicen a las personas para qué sirve, la compañía no tiene que preocuparse de que los participantes tuerzan sus respuestas para “verse bien” para sus propósitos. Unas pocas preguntas clave y acceso a los medios sociales permiten que el desarrollador de la aplicación elimine los datos de las cuentas de redes sociales (que la aplicación tiene desde que el participante ingresó para usar la aplicación), es fácil para un científico de datos malintencionado vincular perfiles de personalidad con “me gusta”, “aversiones”, posiciones políticas, identificar amigos y construir modelos predictivos.

Ahora tienen la capacidad de apuntar a las personas en función de los rasgos psicológicos, no solo de las “variables del estilo de vida”, como las preferencias cinematográficas. Honestamente, a los especialistas en marketing les encantaría hacer eso, pero no es así. No solo es difícil obtener datos de preferencias personales vinculados con datos de usuarios específicos sin violar las normas de privacidad y estándares éticos de las empresas de medios sociales, sino que tampoco tienen resultados de pruebas de personalidad legítimas. Empresas como Twitter, por ejemplo, guardan celosamente la identificación de usuarios individuales en solicitudes de coincidencia de datos de campañas de marketing y políticas. Cambridge Analytica aprovechó el hecho de que la mayoría de nosotros iniciará sesión en una aplicación y regalará información privada si nos sentimos seguros. Solicitar en Facebook y decirle a la gente que era para investigación académica los hizo sentir seguros. Por lo tanto, la pregunta legal: ¿cuenta si el permiso se dio bajo falsas pretensiones?

En 2008 y 2012, durante la campaña de Obama, su equipo usaba perfiles disponibles públicamente. Si le dio la bienvenida a Obama en Facebook, le dio sus datos y le mostró quiénes eran sus amigos. Está en letra pequeña. Léelo alguna vez. Los datos proporcionados por el usuario les permitieron identificar predisposiciones probables hacia la política, concuerdan con otros datos disponibles, como códigos postales.

La gente hace predicciones a partir de la información todo el tiempo. Cuando estamos usando nuestra propia experiencia, se llama heurística. Con un montón de información y matemática, se llama ciencia de datos. La pregunta es exactitud. Incluso con los datos recopilados por Cambridge, su capacidad para influir en las personas no es algo seguro o tiene la capacidad de alterar la cultura, como algunos han afirmado. Pero la orientación personal hace que la persuasión sea más probable y la orientación sin permiso es, seamos sinceros, algo espeluznante. El equipo de Obama era bastante sofisticado en ese momento, pero no más que Google, Amazon o cualquier otra preocupación comercial basada en datos. La campaña de Obama fue la primera vez que las técnicas de marketing en redes sociales se aplicaron a la política. La atención no provino tanto de la sofisticación de su focalización como de la capacidad de Obama de usar su personalidad en las redes sociales para activar un entusiasmo de base y agrupar de forma efectiva las arcas de la campaña.

Lo que todavía no sabemos es qué hizo la campaña de Trump para que Cambridge haga con sus datos. Esta historia se desarrollará. Sin embargo, a la gente no le gusta que lo manipulen. Puede recordar la reacción del público ante Facebook al experimentar con las noticias positivas y negativas para ver si la valencia del contenido cambió el tono general y el “estado de ánimo”, y eso se debió principalmente al agregado y no a la orientación individual. Será interesante ver si las personas encuentran uniformemente ofensivas las posibilidades de manipulación o si se etiqueta como cosas diferentes a lo largo de las líneas del partido.

Todo político busca lo que resonará con los votantes. El uso de los datos de las redes sociales y el perfil de los votantes en las elecciones de 2012 parece casi saludable en comparación con la explotación de datos de Cambridge Analytica. Pero esta es la primera vez (que sabemos) que los datos han sido solicitados con fines políticos utilizando la información errónea para engañar a las personas a revelar. Esto desencadena un botón candente para muchos, dada la cantidad de desinformación que se ha generado durante y desde la elección de Trump-Clinton. Todos son hipersensibles a las noticias falsas sin importar su persuasión política. Saber que la desinformación fue la raíz de esta recopilación de datos hará que la violación parezca aún más atroz para muchos, especialmente dado el sesgo cognitivo que nos hace atribuir comportamientos o intenciones basadas en experiencias pasadas. (Si engañaron a A, probablemente engañarán a B O si engañaron a B, deben haber engañado a A.) Esto no es racional, pero ser manipulado mueve a las personas inherentemente de una posición de confianza a una posición defensiva y sospechosa.

Tristemente, todo esto se manifiesta en muchas acusaciones y siempre nos gusta tener a alguien a quien culpar. En este caso, parece que los pies de Facebook se mantendrán encendidos junto con Cambridge Analytica. Dudo seriamente si hay algo que Facebook podría haber hecho para evitar que una organización tergiverse sus intenciones. Sin embargo, irónicamente para Facebook, la fortaleza de su marca validó implícitamente la aplicación.