Tardío feliz cumpleaños alfa zero

La inteligencia mecánica y la ciencia psicológica cognitiva

Vamos a conocer a AlphaZero

AlphaZero es un programa de aprendizaje de máquina desarrollado por DeepMind que ha adquirido una visión del juego de ajedrez creativo por sí solo a través de un aprendizaje profundo sin ninguna guía humana. Ahora es el ajedrez más fuerte, el ajedrez japonés (shogi) y el jugador Go del mundo, superando constantemente a los mejores jugadores humanos y los mejores motores de ajedrez. ¿Por qué le deseo un feliz cumpleaños? Quiero decir, ¿por qué lo felicitaría por su nacimiento? La respuesta corta es que es porque recientemente aprendí que AlphaZero logró una visión en octubre de 2017 y, por lo tanto, se volvió verdaderamente inteligente en mi opinión. De ahí mi último deseo de cumpleaños feliz.

Mi uso del término insight fue motivado por el siguiente informe del New York Times del 12/26/18: “Lo más desconcertante fue que AlphaZero parecía expresar un insight. Jugó como ninguna computadora lo ha hecho, intuitiva y bellamente, con un estilo de ataque romántico. Jugó gambitos y tomó riesgos ”. El comando “define: insight” de Google devuelve la siguiente definición primaria: “la capacidad de obtener una comprensión intuitiva profunda y precisa de una persona o cosa”. Los sinónimos de insight incluyen: intuición, percepción, conciencia, discernimiento, comprensión, comprensión, aprehensión , apreciación, perspicacia y astucia. Una definición secundaria de percepción es “una comprensión profunda de una persona o cosa”. Estas son cualidades de una entidad verdaderamente inteligente.

Matthew Sandler y Natasha Regan son maestros ingleses de ajedrez. Han escrito un libro titulado Game Changer , publicado por New in Chess , en el que analizan las ideas sobre los juegos de ajedrez y Go que AlphaZero desarrolló por su cuenta sin ninguna guía humana. Dijeron que AlphaZero descubrió aperturas y estrategias bien conocidas mientras aprendía a jugar ajedrez por sí solo. Dijeron que también desarrollaba nuevas e impresionantes estrategias creativas a largo plazo porque no estaba limitado por la sabiduría convencional impartida por los programadores humanos. Aquí tenemos grandes maestros que admiran las ideas que AlphaZero logró por sí solo. Se podría argumentar que AlphaZero fue capaz de lograr nuevos conocimientos precisamente porque se retuvo la sabiduría humana convencional, lo que liberó a AlphaZero del sesgo humano. La capacidad de lograr una visión es una característica humana verdaderamente inteligente. El “nacimiento” de una inteligencia tan revolucionaria y notable merece un reconocimiento respetuoso. Por lo tanto, le deseo a AlphaZero un feliz cumpleaños tardío!

Generalizabilidad

La generalización es una prueba de validez. La generalización ha sido durante mucho tiempo un problema importante para los programas tradicionales de inteligencia artificial (IA) basados ​​en reglas. Sus logros se han limitado a tareas muy específicas. Los programas basados ​​en reglas son altamente especializados y solo pueden hacer aquello para lo que fueron programados específicamente. No generalizan a tareas similares relacionadas porque no pueden aprender por su cuenta. Esperan que los humanos les proporcionen nuevas reglas adicionales.

Al haberse enseñado a sí mismo ajedrez, shogi y Go, AlphaZero ha demostrado que puede descubrir nuevos conocimientos por sí mismo a través del aprendizaje por refuerzo. Esta capacidad de generalizar aprendiendo por sí misma es un logro notable. Aprender por sí mismo es un sello de la verdadera inteligencia. Esta capacidad establece posiblemente la superioridad de la IA basada en el cerebro sobre la IA basada en reglas. Más detalles están disponibles.

Otro proyecto DeepMind, un programa llamado AlphaFold, utiliza el enfoque de la red neuronal de aprendizaje neuronal basado en el cerebro AI para resolver un problema extraordinariamente complejo que hasta ahora ha eludido a los científicos. Me refiero a entender cómo se pliegan las proteínas. La forma en que las proteínas se pliegan dentro del cuerpo en estructuras tridimensionales determina cómo se unirán a otras moléculas, incluidas las nuevas medicinas. Ese conocimiento es la clave para comprender y predecir los efectos que tendrán los nuevos medicamentos. AlphaFold ahora está progresando en la comprensión de este proceso.

El resto de este blog contrasta los modelos psicológicos basados ​​en la mente con modelos psicológicos basados ​​en el cerebro antes de proporcionar algunos principios básicos de red que nos permiten comprender mejor cómo funcionan las máquinas conexionistas de aprendizaje profundo como AlphaZero y AlphaFold.

Modelos basados ​​en el cerebro y basados ​​en la mente

Modelos basados ​​en la mente

La psicología comenzó como una rama de la filosofía natural donde las explicaciones basadas en la mente del comportamiento humano se derivaban de la introspección. Los psicólogos cognitivos tradicionales han continuado esta práctica con su opinión de que las personas aprenden y se comportan porque la mente sigue reglas que gobiernan la manipulación de símbolos. La evidencia de que esta teoría es incorrecta puede obtenerse preguntando a los expertos sobre las reglas que siguen cuando funcionan. Los expertos generalmente no reconocen ni informan que siguen las reglas de ningún tipo a medida que funcionan. Es posible que hayan seguido las reglas cuando eran novatos, pero se movieron más allá de seguir las reglas a medida que se hicieron expertos. Pero muchos psicólogos cognitivos continúan actuando como si las personas siempre siguieran reglas cuando piensan y se comportan. Actuar como si algo fuera cierto cuando no lo es puede ser conveniente para el profesional, pero hacerlo no ha tenido mucho éxito como veremos a continuación.

El enfoque de manipulación de símbolos basado en reglas caracterizó los esfuerzos iniciales para crear inteligencia artificial. Por ejemplo, las computadoras una vez fueron programadas con muchas reglas para jugar ajedrez, pero nunca lo hicieron muy bien. Las computadoras se programaron con muchas reglas para identificar a las personas a partir de fotografías o videos, pero lo hicieron incluso menos y no pudieron hacerlo en tiempo real. Las limitaciones del enfoque basado en reglas son manifiestas, pero muchos psicólogos cognitivos continúan explicando el comportamiento humano en términos de reglas y seguimiento de reglas porque siempre lo han hecho y porque respalda su metáfora informática. Entienden que el cerebro actúa como un hardware informático y la mente que opera como un software informático en el que las reglas son como programas informáticos que gobiernan cómo piensan, sienten y se comportan las personas.

Estos mismos psicólogos cognitivos admiran los logros de los sistemas de IA de aprendizaje profundo como AlphaZero, pero no confían en ellos porque no pueden entender cómo piensan porque no generan símbolos o formas y siguen reglas como normalmente los entendemos. Por lo tanto, AlphaZero no puede comunicarse con estos psicólogos cognitivos de manera que ellos entiendan. El problema aquí es que AlphaZero aprende como lo hace el cerebro, no como se dice que la mente. Se requiere una nueva forma de entender cómo AlphaZero piensa que es relevante para entender cómo funciona el cerebro. Este nuevo enfoque también se puede utilizar para comprender la psicología cognitiva basada en modelos de redes neuronales.

Modelos basados ​​en el cerebro

Los modelos de redes neuronales conexionistas, también conocidos como redes neuronales, aprendizaje profundo e inteligencia de la máquina, subyacen y explican cómo funciona Alpha Zero. Estos modelos adoptan un enfoque basado en el cerebro para explicar la psicología cognitiva. Han sido estudiados seriamente desde que McClelland y Rumelhart y Rumelhart y McClelland publicaron sus trabajos seminales en 1986. En 2014, publiqué un enfoque explicativo de la red neuronal conexionista de la psicología en mi libro titulado Neurociencia cognitiva y psicoterapia: Principios de red para una unidad unificada. Teoria Refleja la evolución de las décadas transcurridas desde 1986.

Los modelos de redes neuronales consisten en tres o más capas de nodos de procesamiento interconectados que tienen muchas de las mismas propiedades funcionales que tienen las neuronas reales. Por ejemplo, cada neurona artificial recibe entradas de muchas otras neuronas artificiales, al igual que las neuronas reales. Cada neurona artificial suma estas entradas y genera una salida si la suma de sus entradas excede una cantidad de umbral al igual que las neuronas reales.

Las neuronas artificiales están conectadas entre sí mediante sinapsis simuladas denominadas ponderaciones de conexión. Estos pesos se establecen inicialmente en pequeños valores aleatorios. El aprendizaje y la memoria ocurren al ajustar gradualmente estos pesos sobre los ensayos de aprendizaje. El resultado final es una red donde los nodos de procesamiento están interconectados con pesos óptimos para las tareas en consideración. Los pesos de conexión son tan centrales para la funcionalidad de los modelos de redes neuronales conexionistas que el término conexionista a menudo se omite. Los sistemas de redes neuronales conexionistas pueden actuar como si estuvieran siguiendo reglas, pero nunca formulan o siguen reglas como normalmente las entendemos y ciertamente no generan símbolos. Los detalles adicionales se proporcionan en la siguiente sección.

Entender los modelos basados ​​en el cerebro

Me parece que la mejor manera de entender los sistemas de redes neuronales que utilizan AlphaZero y otras inteligencias artificiales de aprendizaje profundo es comprender los principios que los gobiernan. Estos principios de red también pueden entenderse como propiedades de red neuronal. Ahora discuto cuatro de estos principios / propiedades. Hay otros, pero estos cuatro son fundamentales y deberían comenzar. Ver Tryon (2012, 2014) para más información.

Principio / Propiedad 1: Arquitectura

La arquitectura neural de los cerebros reales es importante para su función. Por ejemplo, el cerebelo tiene un circuito especial que le permite controlar rápidamente nuestros músculos para que podamos caminar, correr y practicar deportes. Asimismo, la arquitectura de las redes neuronales artificiales es importante para su funcionamiento. Por ejemplo, las redes neuronales que tienen solo dos capas, llamadas Perceptrones, no pueden resolver ciertos problemas lógicos. Las redes con tres o más capas pueden resolver todos los problemas lógicos. Existe una prueba matemática de que las redes neuronales multicapa pueden resolver potencialmente todo tipo de problemas. Ver Hornik, Stinchcombe y White (1989, 1990) para una prueba matemática de esta afirmación.

Principio / Propiedad 2: Cascada de red: Procesamiento inconsciente

Las activaciones generadas por las neuronas artificiales se conectan en cascada a través de redes neuronales artificiales de la manera descrita a continuación que refleja cómo las activaciones generadas por las neuronas reales conectan en cascada a través de las redes reales del cerebro. La mayoría del procesamiento cerebral ocurre inconscientemente. La famosa analogía del iceberg refleja con precisión estos eventos. El noventa por ciento de un iceberg que está bajo el agua representa, y es proporcional al procesamiento cerebral inconsciente. El diez por ciento de un iceberg que está por encima del agua representa, y es proporcional al procesamiento cerebral consciente. Ver Cohen, Dunbar y McClelland (1990) para más detalles.

La siguiente figura ilustra cómo funciona la red en cascada. Es una red muy simple pero debe encajar en esta página. La capa superior de tres círculos simula tres neuronas de entrada. Pueden entenderse como neuronas sensoriales. El número “1” dentro del círculo indica que la neurona simulada está activa. El número “0” indica que la neurona simulada está inactiva. Juntos, definen las tres entradas de este sistema como: 1, 0, 1.

Warren W. Tryon

Red neuronal ilustrativa

Fuente: Warren W. Tryon

El estado “on”, “off” de las neuronas simuladas en las siguientes dos capas se calcula en lugar de asignarse. La segunda capa de tres conjuntos de tres cajas simula las sinapsis que conectan las neuronas simuladas en la capa superior, la capa de entrada, con las tres neuronas simuladas adicionales en la tercera capa. El conjunto de tres casillas de la izquierda en la segunda fila representa las sinapsis simuladas que conectan la neurona simulada de la izquierda en la fila superior con las tres neuronas simuladas en la tercera fila. El conjunto intermedio de tres cuadros en la segunda fila conecta la neurona simulada del medio en la fila superior con las tres neuronas simuladas en la tercera fila. El conjunto de la derecha de tres cuadros en la segunda fila representa las sinapsis simuladas que conectan la neurona simulada de la derecha en la fila superior con las tres neuronas simuladas en la tercera fila. Las entradas positivas simulan la excitación. Las entradas negativas simulan la inhibición. Estos valores se denominan pesos de conexión porque especifican la fuerza de la conexión entre dos neuronas simuladas. Los valores actuales se pueden pensar en una de dos maneras. Una posibilidad es que sean los primeros valores asignados aleatoriamente al inicio. Otra posibilidad es que reflejen el estado de la red en un paso de procesamiento arbitrario.

Los estados on = 1, off = 0 de las tres neuronas simuladas en la tercera capa se calculan en lugar de asignarse. Ahora detallo los cálculos relevantes. Observe que cada una de las tres neuronas simuladas en la tercera fila tiene tres entradas; Una de cada una de las neuronas simuladas en la primera fila. Estas entradas equivalen al estado de la neurona emisora, 1 si está activo, 0 si está inactivo, multiplicado por el peso de la conexión de la siguiente manera. Las entradas a la neurona de la mano izquierda en la tercera capa equivalen a 1 (.1) + 0 (-. 2) + 1 (.3) = .4. Este resultado se compara con un umbral que en este caso es cero pero podría tener algún otro valor. Si la suma de las entradas excede de cero, es positiva, como lo es en este caso, entonces la neurona simulada receptora, la mano izquierda en este caso, se activa o permanece activa si estaba previamente activa, como lo indica el 1 en el interior el círculo que representa la neurona simulada de la mano izquierda en la tercera capa. Debido a que cero veces cualquier cosa es cero, la suma de entradas múltiples es igual a la suma de los pesos de conexión asociados con las neuronas de envío simuladas activas.

Las entradas a la neurona simulada del medio en la tercera fila son 1 (.3) + 0 (.1) + 1 (.2) = .5, siendo positivo activa esta neurona simulada como lo indica el número 1 en su círculo. Las entradas a la derecha neurona simulada en la tercera fila son 1 (-. 1) + 0 (.3) + 1 (-. 3) = -.4 que ser negativo desactiva esta neurona simulada, la desactiva si estaba previamente en, como lo indica el número 0 en su círculo.

El estado de las dos neuronas calculadas simuladas en la quinta fila está controlado por los estados calculados de las tres neuronas en la tercera fila y las sinapsis simuladas, pesos de conexión, en los cuadros de la cuarta fila. La neurona simulada de la izquierda en la quinta fila se vuelve inactiva porque la suma de sus entradas de 1 (-. 2) + 1 (-. 2) + 0 (.4) = -.4 es negativa y, por lo tanto, está por debajo del umbral de cero. . La neurona simulada de la derecha en la quinta fila se activa porque la suma de sus entradas de 1 (.2) + 1 (.1) + 0 (.3) = .3 es positiva y, por lo tanto, supera el umbral de cero.

Se dice que la activación de las neuronas simuladas en la capa superior, de entrada, en cascada a través de las sinapsis simuladas a las neuronas simuladas restantes. Este proceso es automático y determinista.

Principio 3 / Propiedad: Experiencia Plasticidad Dependiente

La red siempre calculará el mismo resultado si todo se deja como está. Ningún desarrollo ocurrirá. La red calculará un resultado diferente si se cambian los valores de entrada. Pero, la red no aprenderá a hacerlo mejor si los pesos de conexión siguen siendo los mismos. El aprendizaje requiere que se cambien los pesos de conexión. La cantidad de cambio está determinada por ecuaciones que simulan los efectos de los mecanismos biológicos de plasticidad sináptica dependientes de la experiencia que modifican las sinapsis reales entre las neuronas reales cuando aprendemos y formamos memorias.

Cambiar los pesos de conexión significa que la red calcula una nueva respuesta a los antiguos valores de entrada de estímulo. Los pesos de conexión se cambian de acuerdo con los métodos de descenso de gradiente que esencialmente garantizan una respuesta de red mejorada de manera incremental.

Deseo proporcionar tres puntos para llevar aquí. El primer punto que deseo enfatizar es que el aprendizaje y la memoria son fundamentales para toda la psicología porque la psicología no existiría si no pudiéramos aprender y formar memorias a través de la modificación sináptica. El segundo punto que deseo enfatizar es que todos los aspectos de nuestra psicología están contenidos en lo que Seung (2012) llama nuestro conectoma ; La colección completa de nuestras sinapsis. El tercer punto que deseo enfatizar es que los mecanismos de plasticidad dependientes de la experiencia permiten que nuestras experiencias cambien físicamente nuestros cerebros y, por lo tanto, alteren las formas en que pensamos, sentimos y nos comportamos. No hay nada mental o mágico en este proceso.

Principio 4 / Propiedad: Aprendizaje de Refuerzos

Los psicólogos del comportamiento, como BF Skinner, explicaron que el comportamiento se fortalece, se vuelve más probable, a través del refuerzo con consecuencias positivas o negativas que siguen al comportamiento. No podía explicar los procesos físicos del cambio sináptico que permitían cambiar el comportamiento, por lo que simplemente reconoció el cambio al afirmar que la rata condicionada sobrevivió como una rata cambiada. Se dio cuenta de que la experiencia cambia el cerebro, pero no podía ser más informativa porque la biología del aprendizaje y la memoria estaba en su infancia en ese momento.

Aprendizaje de refuerzo ahora se entiende mucho mejor. Es un proceso incremental que no tiene sentido desde una perspectiva cognitiva basada en la mente donde el aprendizaje y la memoria implican seguir reglas para manipular los símbolos. Los símbolos no se generan un poco a la vez. Tampoco tiene sentido que los símbolos cambien un poco a la vez o que su significado se modifique poco a poco. Por lo tanto, parecía que el aprendizaje por refuerzo no podía explicar cómo funciona la cognición.

Pero, el aprendizaje por refuerzo tiene mucho sentido desde la perspectiva de la red neuronal conexionista basada en el cerebro que se describe anteriormente, en la que los pesos de conexión entre las neuronas comienzan en niveles aleatorios y se ajustan gradualmente a través del aprendizaje para que converjan a valores óptimos a través de un proceso incremental de cambio. conocido como pendiente de gradiente.

AlphaZero desarrolló sus habilidades cognitivas superiores a través del proceso incremental de aprendizaje por refuerzo. Este logro muestra que los psicólogos cognitivos tradicionales se equivocaron al descartar el aprendizaje por refuerzo como una explicación válida para el desarrollo de procesos cognitivos.

El aprendizaje por refuerzo es una forma de evolución porque depende críticamente de la variación y la selección . Los éxitos y los fracasos dan forma al comportamiento futuro. Skinner mantuvo constantemente que el comportamiento humano y animal evoluciona ontogenéticamente (a lo largo de la vida) así como filogenéticamente (a lo largo de muchas generaciones). El aprendizaje por refuerzo es una forma efectiva para que los sistemas de IA conexionistas aprendan de la experiencia por sí mismos. El aprendizaje por refuerzo resuelve efectivamente los problemas que son demasiado complejos para programar soluciones. Por ejemplo, es el método utilizado para enseñar a los coches a conducir.

Conclusiones

AlphaZero es una inteligencia súper artificial basada en el cerebro que es capaz de comprender, por lo que es mucho más humana que las máquinas de IA tradicionales. Puede generalizar su aprendizaje de manera que las inteligencias artificiales tradicionales basadas en reglas no pueden. Ajusta rápidamente sus sinapsis simuladas a través del aprendizaje por refuerzo. No genera símbolos ni formula y sigue reglas como se entiende normalmente. Por lo tanto, las inteligencias de las redes neuronales como AlphaZero y AlphaFold no pueden ayudar a los psicólogos cognitivos tradicionales a comprender cómo funcionan. Se requiere una orientación de red neuronal para hacer eso. Los cuatro principios / propiedades de la red neuronal discutidos anteriormente pueden ayudarnos a comprender mejor las inteligencias artificiales como AlphaZero.

El éxito de AlphaZero nos dice al menos dos cosas. Primero , proporciona una prueba empírica de que el aprendizaje por refuerzo es suficiente para explicar la adquisición de habilidades cognitivas complejas, incluida la capacidad de lograr una visión. Segundo , apoya la validez de los modelos basados ​​en el cerebro sobre los modelos basados ​​en la mente. Esto constituye un importante cambio de paradigma en la psicología cognitiva.

¡Feliz cumpleaños AlphaZero!

Referencias

Cohen, JD, Dunbar, K., y McClelland, JL (1990). Sobre el control de los procesos automáticos: una cuenta de procesamiento distribuido paralelo del efecto Stroop. Revisión psicológica, 97, 332-361. doi: 10.1037 // 0033-295X.97.3.332

Hornik, K., Stinchcombe, M., y White, H. (1989). Las redes de avance de múltiples capas son aproximadores universales. Redes neuronales, 2, 359-366. doi: 10.1016 / 0893-6080 (89) 90020-8

Hornik, K., Stinchcombe, M., y White, H. (1990). Aproximación universal de un mapeo desconocido y sus derivados utilizando redes de avance de múltiples capas. Redes neuronales, 3, 551-560. Doi 10.1016 / 0893-6080 (90) 90005-6

McClelland, JL, Rumelhart, DE, y el Grupo de Investigación PDP (1986). Procesamiento distribuido en paralelo: Exploraciones en la microestructura de la cognición, vol. 2: Modelos psicológicos y biológicos . Cambridge, MA: MIT Press.

Rumelhart, DE, McClelland, JL, y el Grupo de Investigación PDP (1986). Procesamiento distribuido en paralelo: Exploraciones en la microestructura de la cognición, vol. 1: Fundaciones . Cambridge, MA: MIT Press.

Seung, S. (2012). Conectante: Cómo el cableado del cerebro nos hace quienes somos . Boston: Houghton Mifflin Harcourt.

Tryon, WW (2012). Un enfoque de la red conexionista de la ciencia psicológica: principios básicos y corolarios. Revisión de Psicología General, 16 , 305-317. doi: 10.1037 / a0027135

Tryon, WW (2014). Neurociencia cognitiva y psicoterapia: Principios de la red para una teoría unificada . Nueva York: Academic Press.