Enseñando al iPhone a conducir

* Este artículo es coautor con el neurofísico de Los Alamos Michael Ham

Esta es una historia sobre una singularidad venidera.

Para los que no están familiarizados, el término "singularidad" proviene de la astrofísica, donde técnicamente es el lugar en un agujero negro donde la materia es aplastada hasta un punto diminuto con masa infinita y sin volumen; y metafóricamente un horizonte de eventos, un punto más allá del cual no podemos ver.

En la década de 1950, el matemático John von Neumann aplicó esta metáfora a la tecnología, escribiendo: "[El] progreso acelerado de la tecnología y los cambios en el modo de vida humana, que da la apariencia de acercarse a alguna singularidad esencial en la historia de la raza más allá de lo cual los asuntos humanos, tal como los conocemos, no podrían continuar ".

Ray Kurzweil, autor de The Singularity is Near y el mayor divulgador del término, se refirió a la singularidad como el momento en que las computadoras se vuelven más inteligentes que los humanos.

La singularidad que estamos describiendo no es tan dramática, pero no menos revolucionaria. Muy pronto, posiblemente dentro de los próximos cinco años, cruzaremos una línea y las computadoras comenzarán a verse mejor que los humanos.

¿Qué significa esto? Bueno, ahora mismo las computadoras están atrapadas en su mayoría en un universo digital; todavía no pueden tener un sentido directo de nuestro mundo analógico. Todavía se requiere algún tipo de intervención humana.

El Siri del iPhone es un ejemplo. Al hablar con su iPhone, Siri convierte una entrada analógica (su voz) en una respuesta digital, pero el proceso, aunque sorprendente, aún requiere un ser humano.

En la visión artificial, aparte de en sistemas extremadamente engorrosos como LIDAR -los ojos principales del automóvil autónomo de Google- la capacidad de prescindir de la participación humana todavía no existe en ninguna capacidad realista.

Por realista, lo que quiero decir es que el sistema LIDAR es a) muy caro b) bastante engorroso. En otras palabras, no cabe en tu iPhone.

Pero si el iPhone pudiera procesar los datos de su cámara con la misma precisión que un humano, podría conducir su automóvil. En resumen, esta es la singularidad visual.

Y nos estamos acercando. Tanto la detección de matrículas como el reconocimiento facial son trucos de visión computacional que ya funcionan. Pero son algoritmos limitados: hacen una cosa muy bien, pero no muchas. No puedes conectar tu iPhone a tu Roomba y decirle que limpie la suciedad, pero no los Legos.

Dos fuerzas están cambiando esto y, como resulta, estas son las mismas dos fuerzas que impulsan todas las singularidades.

El primero es curvas exponenciales. La Ley de Moore, la Ley de la Mantequilla, etc. La misma aceleración en potencia computacional que impulsó el avance de Siri está impulsando la evolución de la visión artificial. La diferencia es que la detección de voz es un problema de megabyte, mientras que la visión artificial es un problema de gigabyte. Pero, a medida que nuestras computadoras continúan acelerándose, este problema desaparece por completo.

El segundo es datos, una masa crítica de datos.

Hemos encontrado que la manera más fácil de simular las habilidades humanas es entrenarlas. Por ejemplo, fue el crecimiento masivo en los sitios web (es decir, el texto digitalizado) lo que permitió que se produjera la singularidad de lectura de texto (el punto en el que las máquinas podían leer, así como los humanos). De manera similar, se necesitaron grandes cantidades de voz digitalizada para lograr la singularidad del habla (también conocida como Siri). Del mismo modo, sin Youtube y las 72 horas de video subidas cada minuto, la próxima singularidad visual sería imposible.

En esta línea, el pasado mes de junio, Google conectó 16,000 procesadores de computadora en una red neuronal de aprendizaje de visión gigante y los dejó libres en YouTube. El resultado, como señaló el New York Times, fue que la red se enseñó a sí misma a reconocer a los gatos.

¿Por qué? Sencillo…. Hay toneladas de videos de gatos en YouTube. Esa es una de las cosas que vio mucho. Del mismo modo que un bebé aprende a reconocer los objetos que ve todos los días.

La historia del gato se movió. Lo que la mayoría de la gente perdió en ese artículo del Times fue el hecho de que el algoritmo de visión artificial de Google funcionaba mucho mejor que cualquier otra cosa: duplicar su precisión (mientras reconoce objetos de una lista de unos 20,000 artículos) en camino a la detección de gatos.

Este pozo de duplicación es crecimiento exponencial. Crecimiento exponencial visible. Lo que significa es que mientras que la visión artificial ha estado en una curva exponencial por un tiempo, ha estado debajo de la rodilla de la curva, donde esas duplicaciones son en su mayoría invisibles. El éxito de Google pone el arco mucho más cerca de la rodilla, lo que significa que estamos cada vez más cerca de la vista como lo sabemos los humanos.

Desde una perspectiva diferente, cuando hablamos de la vista como lo sabemos los humanos, estamos hablando de un umbral de error aceptable. El sistema visual humano es bastante bueno. No es genial, pero es más que suficiente para mantenernos en estos últimos 200,000 años. Por esa misma razón, su tasa de error es aceptable para nosotros.

Pero tiene límites. La visión humana se cansa. En experimentos realizados en el Laboratorio Nacional Los Álamos, cuando se les pidió a los humanos realizar tareas de reconocimiento de objetos, los experimentos se mantuvieron en menos de una hora para no llegar al punto en que los sujetos ya no pudieran concentrarse en la tarea. La máquina de Google funcionó durante una semana en millones de imágenes, mucho más allá del punto que cualquier ser humano podría esperar mantener.

Una vez que se cruce este umbral, el impacto en la sociedad será significativo.

En este momento, por ejemplo, tenemos el robot quirúrgico Da Vinci. Increíble invento Da Vinci ayuda a los cirujanos a realizar todo, desde derivaciones cardíacas a bypass gástricos con mucha más precisión y menos daño colateral que un ser humano sin ayuda. Pero el Da Vinci todavía necesita la participación humana. Su capacidad para realizar la cirugía real es mucho mejor que nuestras manos, pero necesita tomar prestados nuestros ojos. Pero cuando la visión artificial se vuelve mejor que la visión humana, el cirujano se vuelve obsoleto.

De acuerdo, no completamente obsoleto, aún necesitaremos sus conocimientos e investigaciones. Sin embargo, IBM ha enviado a Watson (el superordenador ganador de Jeopardy) a la escuela de medicina. Se está cargando con la mayor cantidad de datos médicos como sea posible. Los resultados pondrán un dispositivo de diagnóstico increíblemente poderoso en la nube. Combine ese dispositivo de diagnóstico con una visión artificial mejor que humana (y análisis microfluídico de laboratorio en un chip) y no son solo los cirujanos quienes están sin trabajo.

Doctores también. En este momento, el error de diagnóstico para los médicos humanos es del 45 por ciento. Eso significa que si consulta con su médico tres veces, los porcentajes dicen que cometió un error en una de esas visitas. Ya tenemos a Watson, la tecnología lab-on-a-chip también se queda unos años más (ver el Qualcomm Tricorder X Prize). La visión artificial completará el triunvirato. Los resultados cambiarán la atención médica para siempre.

A decir verdad, no es solo cuidado de la salud. Una vez que las máquinas sean capaces de interactuar visualmente con el mundo, se abrirán nuevas tecnologías que ahora solo son ciencia ficción.

Entonces, Siri, llévame a trabajar mientras termino de ver los últimos veinte minutos de Terminator.