Programa informático supera al campeón europeo de Go

En 1997, la computadora de ajedrez Deep Blue venció al campeón mundial de ajedrez Gary Kasparov en un partido de seis juegos. Este resultado se sintió como un gran golpe para el orgullo humano: el ajedrez se había visto como un símbolo del intelecto único humano. Lamerse sus heridas, la humanidad buscó otro juego para reemplazar al ajedrez como su símbolo de inteligencia. Eligió el juego asiático de Go.

Go se juega en un tablero de 19 x 19, entre dos jugadores (blanco y negro). Una vez colocado, una pieza (llamada "piedra") no se puede mover nuevamente. El objetivo del juego es ganar más territorio que el oponente, rodeando sus piedras. Las reglas son simples, pero el juego es diabólicamente complejo, mucho más que el ajedrez (Gobet, de Voogt, y Retschitzki, 2004): hay 10 172 posiciones posibles en el número (una seguida de 172 ceros), muchas más que el número de átomos en el universo conocido. En comparación, el número de posiciones en el ajedrez es "solo" 10 43 .

Comparado con otros juegos de mesa como ajedrez y damas, Go es más estratégico y menos táctico. Es decir, los planes a largo plazo dominan las combinaciones a corto plazo. Esto se debe al gran tamaño del tablero Go y al hecho de que las piedras no se mueven una vez colocadas en el tablero. Una consecuencia es que el juego aprovecha los aspectos de la cognición en los que los humanos son fuertes (reconocimiento de patrones, intuición, planificación) y donde las computadoras tradicionalmente han tenido problemas. Por el contrario, el juego no se adapta a las fortalezas tradicionales de las computadoras, sobre todo la capacidad de buscar sistemáticamente en un gran número de estados por la fuerza bruta.

Por lo tanto, aunque las computadoras han sido mucho más fuertes que los humanos en juegos como el ajedrez, Otelo y damas, habían sido bastante pobres en Go, ya que no podían progresar más allá del nivel de un buen aficionado. Un gran avance se produjo en 2006, cuando los programas de computadora aumentaron drásticamente su fuerza con una técnica simple pero sorprendente llamada búsqueda de árboles Monte-Carlo (Lee et al., 2009). En lugar de buscar en el árbol de movimientos posibles de una manera sistemática, este método genera juegos mediante la selección aleatoria de movimientos para los dos jugadores. La intuición es que, si un movimiento en la posición actual es mejor que las alternativas, este movimiento debería dar lugar a mejores resultados en promedio, cuando se juegan muchos de esos juegos, aunque cada movimiento individual se selecciona al azar. Con variaciones más sofisticadas de esta técnica, la elección de los movimientos está sesgada por la experiencia previa.

Avance con AlphaGo

A fines de enero pasado, la revista Nature informó otro avance (Silver et al., 2016). El programa AphaGo, desarrollado por Google DeepMind, no solo destrozó los mejores otros programas de Go (99.8% de victorias), sino que también derrotó a Fan Hui, un jugador profesional de Go que había ganado el Campeonato Europeo tres veces. El resultado fue brutalmente claro: de cinco a cero.

AlphaGo usa una combinación de tres técnicas de inteligencia artificial: la búsqueda de árboles de Monte Carlo, que acabamos de analizar, Aprendizaje profundo y aprendizaje de refuerzo. El aprendizaje profundo consiste en ajustar los pesos de una red neuronal artificial, utilizando técnicas recientemente desarrolladas (LeCun, Bengio, & Hinton, 2015). AlphaGo usa dos redes: la primera sugiere un movimiento en una posición dada, y la segunda evalúa la posición como un todo. El programa primero aprende escaneando una gran cantidad de juegos maestros (30 millones de posiciones). Luego, juega una gran cantidad de juegos contra sí mismo, sintonizando los pesos de sus redes usando una técnica llamada aprendizaje de refuerzo. Esta técnica usa la retroalimentación obtenida por el resultado de los juegos para aprender más. El aprendizaje de refuerzo ya se había utilizado con éxito para producir programas de alto nivel en varios juegos de mesa, incluido el backgammon (Tesauro, 1995). Todo el aprendizaje es computacionalmente muy costoso y requiere computadoras poderosas.

Cuando se juega contra un oponente, AlphaGo usa sus dos redes para evaluar las posiciones y sesgar la selección de movimientos de modo que seleccione los movimientos que resultaron útiles en el pasado. El programa tiene cierta planificación, con la búsqueda de árboles Monte Carlo. La belleza de este enfoque es que AlphaGo usa solo el conocimiento que ha aprendido por sí mismo. Esto contrasta, por ejemplo, con Deep Blue, que usa muchos conocimientos codificados a mano por sus programadores (Campbell, Hoane y Hsu, 2002).

Lecciones para la experiencia humana

¿Qué nos dice AlphaGo sobre la experiencia humana? ¿Cuáles son las implicaciones para el mundo de Go? Un primer resultado importante es que AlphaGo confirma la importancia del reconocimiento de patrones y la intuición en los juegos de mesa y, presumiblemente, en otros ámbitos de especialización. Utilizando solo su capacidad de reconocimiento de patrones, y sin utilizar ninguna búsqueda, AlphaGo aún supera a la mayoría de los programas de computadora. Esto no es sorprendente, dado que Go es un juego estratégico, pero la forma en que AlphaGo es capaz de capturar tan bien este aspecto de la experiencia humana es impresionante. Muchos investigadores han enfatizado la importancia del reconocimiento de patrones en los expertos humanos (por ejemplo, Adriaan De Groot, Herbert A. Simon y Hubert Dreyfus), incluso cuando había diferencias importantes en los detalles de sus teorías (para más detalles, consulte Gobet & Chassy, ​​2009).

Por el contrario, este proyecto no dice mucho sobre planificación y búsqueda humana. La búsqueda de árboles en Monte Carlo no es muy humana: incluso los expertos simplemente no generan miles de juegos (pseudo) aleatorios y recopilan estadísticas en el camino. Llevan a cabo búsquedas más sutiles y selectivas, donde el reconocimiento de patrones se entrelaza con la búsqueda de anticipación (Gobet, 1997). Si bien Alpha-Go usa su conocimiento para buscar selectivamente, lo hace mucho menos que los humanos.

Las computadoras han cambiado la forma en que el ajedrez se juega en el nivel superior. Han abierto nuevas avenidas conceptuales y exponen límites impactantes en el juego de expertos. Como consecuencia de jugar contra las computadoras, usar computadoras para practicar y usar bases de datos computarizadas, la calidad del juego ha mejorado notablemente en las últimas dos décadas. Las variaciones de apertura que se creían injugables ahora se emplean, y otras que se consideraron satisfactorias han sido refutadas por análisis computarizados. Otra consecuencia, esta vez no deseada, es la aparición de trampas usando computadoras. Será interesante ver si se producirán desarrollos similares con Go.

Es muy poco probable que haya una aceptación universal de la inteligencia artificial como superior al intelecto humano. La gente desarrollará nuevos juegos y actividades en un intento por preservar el dominio humano sobre las computadoras. Esto conducirá a mejores técnicas de computadora. Esta carrera de armamentos entre la inteligencia humana y la inteligencia informática conducirá a una mayor comprensión de la inteligencia humana y artificial, en beneficio de ambos.

El próximo desafío

Mientras que el rendimiento de AlphaGo es notable, uno debe recordar que no ha vencido al campeón del mundo (todavía). Aunque es campeón europeo, Fan Hui es "solo" un profesional de 2 dan y, por lo tanto, claramente más débil que el profesional de alto nivel de Go, que está clasificado 9 dan. Esto es más o menos equivalente a la diferencia, en el ajedrez, entre un Maestro y un Gran Maestro de clase mundial. En otras palabras, es probable que un profesional de 9 dan gane más del 95% del tiempo contra un profesional de 2 dan.

Entonces, ¿cuál es la verdadera fuerza de AlphaGo? Lo sabremos pronto, ya que se ha organizado un partido entre AlphaGo y Lee Se-dol, un profesional surcoreano de 9 dan considerado como uno de los mejores jugadores del mundo. Mientras que el equipo detrás de AlphaGo es optimista de que va a ganar, los maestros de Go creen que la mente humana prevalecerá. También lo hace Jonathan Schaeffer, un científico de la computación que ha contribuido a varios avances en los juegos de computadora: "Piensa en AlphaGo como un niño prodigio. De repente, ha aprendido a jugar muy bien, muy rápido. Pero no tiene mucha experiencia. Lo que vimos en ajedrez y damas es que la experiencia cuenta mucho ".

Fernand Gobet y Morgan Ereku

Referencias

Campbell, M., Hoane, AJ, y Hsu, FH (2002). Azul profundo. Inteligencia Artificial, 134, 57-83.

Gobet, F. (1997). Una teoría de búsqueda de patrones en la resolución de problemas expertos. Pensamiento y razonamiento, 3, 291-313.

Gobet, F., y Chassy, ​​P. (2009). Experiencia e intuición: una historia de tres teorías. Minds & Machines, 19, 151-180.

Gobet, F., de Voogt, AJ, y Retschitzki, J. (2004). Se mueve en mente. Hove, Reino Unido: Psychology Press.

LeCun, Y., Bengio, Y., y Hinton, G. (2015). Aprendizaje profundo. Nature, 521, 436-444.

Lee, C.S., Wang, M.-H., Chaslot, G., Hoock, J.-B., Rimmel, A., Teytaud, O., et al. (2009). La inteligencia computacional de MoGo se reveló en los torneos Go de la computadora de Taiwán. Transacciones IEEE en inteligencia computacional e inteligencia artificial en juegos, 1, 73-89.

Silver, D., Huang, A., Maddison, CJ, Guez, A., Sifre, L., van den Driessche, G., et al. (2016). Dominar el juego de Go con redes neuronales profundas y búsqueda de árbol. Nature, 529, 484-489.

Tesauro, G. (1995). Aprendizaje de diferencia temporal y TD-Gammon. Comunicaciones de la ACM, 38, 58-68.