MIT crea IA que predice la depresión del habla

La red neuronal innovadora detecta la depresión de la conversación.

Jacob Lund/Shutterstock

Fuente: Jacob Lund / Shutterstock

La depresión es uno de los trastornos más comunes a nivel mundial que afecta las vidas de más de 300 millones de personas y casi 800,000 suicidios por año, según las cifras de marzo de 2018 de la Organización Mundial de la Salud. Diagnosticar la depresión puede ser una tarea compleja y desafiante. Según la Clínica Mayo, los síntomas de depresión varían, y los médicos pueden usar un examen físico, pruebas de laboratorio, cuestionario de evaluación psiquiátrica y los criterios del DSM-5 de la Asociación Estadounidense de Psiquiatría ( Diagnóstico y Manual Estadístico de Trastornos Mentales ) para determinar un Diagnóstico de la depresión [1]. Para un profesional de la salud mental, hacer las preguntas correctas e interpretar las respuestas es un factor clave en el diagnóstico. Pero, ¿qué pasaría si se pudiera lograr un diagnóstico a través de una conversación natural en lugar de requerir un contexto de preguntas y respuestas?

Un innovador equipo de investigación del Instituto de Tecnología de Massachusetts (MIT) formado por Tuka Alhanai y James Glass en el CSAIL (Laboratorio de Ciencias de la Computación e Inteligencia Artificial), y Mohammad Ghassemi en el IMES (Instituto de Ingeniería Médica y Ciencia), descubrió una forma para que la IA detecte depresión en individuos mediante la identificación de patrones en conversaciones naturales [2].

Los investigadores del MIT desarrollaron un modelo de AI de red neuronal que podría predecir la depresión basándose en la identificación de los patrones del habla de las transcripciones de audio y texto de las entrevistas. Utilizando un conjunto de datos de 142 entrevistas con pacientes grabadas, el equipo tuvo como objetivo modelar secuencias para la detección de la depresión. Los investigadores incluyeron experimentos en modelado libre de contexto, modelado ponderado y modelado de secuencia [3].

Primero, el equipo trató de evaluar la precisión de la predicción de las características de audio y texto “cuando se consideran independientemente del tipo de pregunta formulada, y el tiempo que se solicitó durante la sesión de la entrevista”, en otras palabras, el modelado “sin contexto”. El equipo introdujo 279 características de audio y 100 funciones de texto en un modelo de regresión logística con regularización L1 [4]. Para las características de texto, el equipo utilizó Doc2Vec de la biblioteca de Python Gensim para “un total de 8,050 ejemplos de capacitación, 272,418 palabras y un vocabulario de 7,411 [5]”. Para las características de audio, el equipo “extrajo un conjunto inicial de 553 características que representan cada respuesta del sujeto. [6] “.

En el segundo experimento, el equipo tuvo como objetivo comprender el rendimiento predictivo “cuando se condiciona el tipo de pregunta formulada, e independientemente del momento en que se solicitó durante la sesión de entrevista”. Para lograr esto, crearon un modelo ponderado similar al contexto. Modelo libre, con un diferenciador clave: había asignado ponderaciones al modelo en función del “poder predictivo de la pregunta encontrada en el conjunto de entrenamiento”.

istockphoto

Fuente: istockphoto

Para el tercer experimento, el equipo se enfocó en “modelar los cambios temporales de la entrevista” y usó una red neuronal bidireccional de memoria a corto plazo (LSTM), porque tenía “la ventaja adicional de modelar datos secuenciales”.

Curiosamente, los investigadores descubrieron que el modelo necesitaba más de cuatro veces más datos cuando usaba audio que texto para predecir la depresión. El modelo requirió un promedio de 30 secuencias para audio, en comparación con solo siete secuencias de preguntas y respuestas de texto. El equipo observó que el modelado de secuencias es más preciso para predecir la depresión, y el modelo multimodal de texto y audio fue el de mejor rendimiento. Irónicamente, la naturaleza de los modelos de redes neuronales de la IA confunde exactamente qué patrones descubre a partir de los datos de entrada. La opacidad de la IA se debe a la complejidad inherente de las redes neuronales con conexiones intrincadas entre los nodos y la gran cantidad de parámetros. En cualquier caso, este estudio MIT representa un paso innovador hacia la creación de una nueva herramienta potencial para ayudar a los médicos y profesionales de la salud mental a abordar las complejidades de diagnosticar la depresión en el futuro.

Copyright © 2018 Cami Rosso Todos los derechos reservados.

Referencias

1. Personal de la Clínica Mayo. “Depresión (trastorno depresivo mayor”. Mayo Clinic. Obtenido de https://www.mayoclinic.org/diseases-conditions/depression/diagnosis-treatment/drc-20356013 el 14 de octubre de 2018.

2. Alhanai, Tuka; Ghassemi, Mohammad; Vidrio, James. “Detección de depresión con modelado de secuencias de audio / texto de entrevistas”. MIT. 2-6 de septiembre de 2018. Obtenido de http://groups.csail.mit.edu/sls/publications/2018/Alhanai_Interspeech-2018.pdf el 14 de octubre de 2018.

3. Ibid .

4. Ibid .

5. Ibid .

6. Ibid .