Nuevo método de AI gana el codiciado premio NeurIPS

La red ODE es un innovador modelo de red neuronal profunda.

pixabay/geralt

Fuente: pixabay / geralt

Los recientes avances en inteligencia artificial (IA) se deben en gran parte al aprendizaje profundo, una técnica de aprendizaje automático que permite a una computadora aprender de los datos que se ingresan en varias capas de procesamiento, en lugar de ejecutarse a partir de una codificación explícita. La mayoría de los modelos de aprendizaje profundo son redes neuronales artificiales con conceptos arquitectónicos inspirados en las neuronas biológicas del cerebro humano. El mes pasado, en la conferencia NeurIPS, un equipo de investigadores de inteligencia artificial de la Universidad de Toronto y el Vector Institute of Toronto, Canadá, ganó un “Premio al mejor artículo” por “Ecuaciones diferenciales ordinarias neuronales”, uno de solo cuatro artículos seleccionados del muchos miles de artículos científicos presentados en una de las conferencias más grandes centradas en la inteligencia artificial.

Entrenar una red neuronal profunda con muchas capas es mucho más difícil que una arquitectura superficial que contiene una o dos capas de cómputo. Uno de los desafíos de la capacitación basada en gradientes de redes neuronales con supervisión profunda es que con más capas de cómputo es más difícil llegar a una buena generalización a medida que se produce la degradación. Kaiming Él y su equipo en Microsoft Research abordaron el problema de la degradación reformulando las capas como funciones residuales de aprendizaje con referencia a las entradas de la capa. Las redes residuales funcionan definiendo una secuencia discreta de transformaciones finitas. Los investigadores descubrieron que sus redes residuales podían ganar precisión con una mayor profundidad de la red y que también eran más fáciles de optimizar.

Sin embargo, este enfoque podría resultar problemático para los sistemas de IA en los que la entrada de datos se realiza de forma aleatoria, en lugar de intervalos discretos. La arquitectura tradicional recurrente de las series de tiempo de la red neuronal requiere intervalos discretos para ingresar datos. Tomemos los automóviles por ejemplo. Por lo general, un vehículo que funciona bien puede visitar al concesionario para el mantenimiento programado regularmente. Pero, ¿qué sucede cuando hay un accidente automovilístico, un retiro del mercado o un funcionamiento incorrecto inesperado? En la vida real, los puntos de datos a menudo ocurren en momentos aleatorios; ajustar los datos a intervalos discretos puede contribuir a una menor precisión.

El equipo de investigación de AI de David Duvenaud, Jesse Bettencourt, Ricky TQ Chen y Yulia Rubanova debutaron con un nuevo tipo de modelo de red neuronal profunda escalable que es eficiente en cuanto a parámetros y memoria. En lugar de usar una secuencia discreta de capas de transformaciones finitas, aplicaron los principios de cálculo para crear un modelo de profundidad continua compuesto por una red ODE (ecuación diferencial ordinaria).

El equipo de investigación parametrizó la “dinámica continua de unidades ocultas usando una ecuación diferencial ordinaria (ODE) especificada por una red neuronal”. La red ODE crea una salida utilizando un solucionador de ecuaciones diferenciales de caja negra que usa el método adjunto para calcular los gradientes.

Este enfoque estructural puede tener varias ventajas. Su modelo no almacena las cantidades intermedias del pase hacia adelante, por lo que es rentable en lo que respecta a la memoria. La solución también es eficiente de parámetros. Para las tareas de aprendizaje supervisado, se necesitan menos parámetros porque los parámetros de las capas cercanas se unen automáticamente cuando la dinámica de la unidad oculta se parametriza como una función continua del tiempo. El modelo de red ODE es un modelo de serie de tiempo continuo diseñado para incorporar el tiempo aleatorio de los datos de entrada.

Con estos beneficios, la red ODE tiene el potencial de interrumpir las redes neuronales profundas en muchas áreas donde los eventos de datos de series temporales pueden no ocurrir a intervalos regulares, como el monitoreo de pacientes de atención médica, fabricación, medicina personalizada, investigación científica, vehículos autónomos, farmacogenómica. , sistemas de seguimiento de activos, operaciones financieras, servicio al cliente, inteligencia comercial y muchas más aplicaciones. Es un nuevo modelo para redes neuronales profundas que tiene el potencial de llevar la inteligencia artificial al próximo nivel en el futuro.

Referencias

Chen, Ricky TQ, Rubanova, Yulia, Bettencourt, Jesse, Duvenaud, David. “Ecuaciones diferenciales ordinarias neuronales”. ArXiv: 1806.07366 . 19 de junio de 2018.

Bengio, Yoshua. “Learning Deep Architectures for AI”. Fundamentos y tendencias en el aprendizaje automático . Vol.2, no.1 (2009).

Él, Kaiming, Zhang, Xiangyu, Ren Shaoquing, Sun, Jian. “Aprendizaje profundo residual para el reconocimiento de imágenes”. ArXiv: 1512.03385v1. 10 dic 2015.