Avance de la neurociencia: AI traduce pensamiento-habla

La interfaz cerebro-computadora de la Universidad de Columbia es lo último en tecnología.

orla/istockphoto

Fuente: orla / istockphoto

Primero estaba el teclado, luego el tacto y la voz para controlar los dispositivos informáticos y las aplicaciones. ¿Que sigue? Investigadores del Instituto Mortimer B. Zuckerman Mind Brain Behavior en la Universidad de Columbia en la ciudad de Nueva York anunció “una primicia científica” con su invento de una interfaz cerebro-computadora (BCI) que traduce el pensamiento humano a un discurso con mayor claridad y precisión que las soluciones existentes. El equipo de investigación, dirigido por Nima Mesgarani, Ph.D., publicó sus hallazgos el 29 de enero de 2019 en Scientific Reports , una revista de investigación de Nature .

Una interfaz cerebro-computadora es una ruta de comunicación bidireccional entre un cerebro y una computadora. Muchos proyectos de investigación de BCI se centran en usos neuroprotésicos para aquellos que han perdido o lesionado el movimiento, la visión, la audición o el habla, como los afectados por el accidente cerebrovascular, las lesiones de la médula espinal, la esclerosis lateral amiotrófica (ALS), la afasia (insuficiencia del habla debida al cerebro). daño), daño coclear, y síndrome encerrado.

Hasta este avance histórico, el proceso de decodificación de señales cerebrales utilizaba modelos informáticos más simples basados ​​en regresión lineal para analizar representaciones visuales de frecuencias de sonido (espectrogramas) que producían un habla ininteligible. Mesgarani y su equipo de investigación combinaron las últimas tecnologías innovadoras en la síntesis del habla con el aprendizaje profundo de la IA para mejorar la inteligibilidad del habla reconstruida, con resultados significativamente mejores.

Mesgarani se asoció con el neurocirujano Ashesh Dinesh Mehta, MD, Ph.D., en el Instituto de Neurociencia de Northwell Health Physician Partners para medir las actividades cerebrales de pacientes con epilepsia focal farmacorresistente que ya se estaban sometiendo a una cirugía cerebral para el estudio.

La electrocorticografía invasiva (ECoG, por sus siglas en inglés) se utilizó para medir la actividad neuronal de cinco participantes del estudio que se informaron a sí mismos de sus capacidades auditivas normales mientras escuchaban a cuatro oradores que presentan historias cortas durante media hora. Los patrones neuronales grabados se utilizaron como entrada de datos para entrenar un vocoder, un procesador de audio que analiza y sintetiza la voz humana.

Después de entrenar al vocoder, los investigadores registraron las señales cerebrales de los mismos participantes mientras escuchaban a los oradores contar entre cero y nueve. Estas señales cerebrales registradas se ingresaron a través del vocoder, que a su vez produjo un discurso sintetizado. A continuación, los investigadores usaron redes neuronales artificiales para refinar el habla producida por el vocoder, luego tuvieron 11 sujetos con audición normal que escucharon la salida.

Los investigadores descubrieron que el uso de una red neuronal profunda (DNN) con regresión no lineal mejora la inteligibilidad en un 67 por ciento con respecto al método de línea de base del uso de regresión lineal para reconstruir el espectrograma auditivo. Esos participantes pudieron comprender y repetir los sonidos generados con la combinación DNN-vocoder con una precisión del 75 por ciento. Según los investigadores, “los hallazgos de estudios que muestran la ventaja superior de los modelos de aprendizaje profundo sobre otras técnicas, particularmente cuando la cantidad de datos de entrenamiento es grande” y “el aumento de la cantidad de datos de entrenamiento resulta en una mejor precisión de reconstrucción”.

Los investigadores descubrieron un “marco general que se puede usar para las tecnologías de neuroprótesis del habla que puede resultar en un discurso reconstruido preciso e inteligible desde la corteza auditiva humana”. Ellos ven su cerebro a los sistemas informáticos como lo último en tecnología y “un “Paso a la próxima generación de sistemas de interacción humano-computadora y canales de comunicación más naturales para pacientes que sufren parálisis y síndromes cerrados”.

El aumento del aprendizaje profundo de la inteligencia artificial ha creado una fuente de posible avance científico en todas las disciplinas, especialmente en el campo de la neurociencia y la ingeniería biomédica. En el futuro, ¿los dispositivos informáticos serán gestionados por el pensamiento humano?

Copyright © 2019 Cami Rosso Todos los derechos reservados.

Referencias

“Akbari, Hassan, Khalighinejad, Bahar, Herrero, José L., Mehta, Ashesh D., Mesgarani, Nima”. Hacia la reconstrucción del habla inteligible de la corteza auditiva humana “. Informes científicos . 29 de enero de 2019.