Marcando un gran avance en el campo de las interfaces cerebro-computadora (BCIs), un equipo de investigadores de UC Berkeley y UC San Francisco ha descubierto una forma de restaurar el habla natural para personas con parálisis cerebral severa.
Este trabajo resuelve el problema persistente de la latencia en las neuroprótesis del habla, es decir, el lapso de tiempo entre el momento en que un sujeto intenta hablar y el momento en que se produce el sonido. Utilizando avances recientes basados en inteligencia artificial, los investigadores desarrollaron un método de transmisión que sintetiza señales cerebrales en voz audible casi en tiempo real.
Como se informó hoy en Nature Neuroscience , esta tecnología representa un paso crucial para facilitar la comunicación a las personas que han perdido la capacidad de hablar. El estudio cuenta con el apoyo del Instituto Nacional de la Sordera y Otros Trastornos de la Comunicación (NIDCD) de los Institutos Nacionales de la Salud de los EEUU.
“Nuestro enfoque de streaming incorpora la misma capacidad de decodificación rápida de voz de dispositivos como Alexa y Siri a las neuroprótesis”, afirmó Gopala Anumanchipalli, profesor adjunto Robert E. y Beverly A. Brooks de Ingeniería Eléctrica y Ciencias de la Computación en UC Berkeley y coinvestigador principal del estudio. “Usando un algoritmo similar, descubrimos que podíamos decodificar datos neuronales y, por primera vez, permitir la transmisión de voz casi sincrónica. El resultado es una síntesis de voz más natural y fluida”, aseguró.
“Esta nueva tecnología tiene un enorme potencial para mejorar la calidad de vida de las personas que viven con parálisis grave que afecta el habla”, afirmó Edward Chang, neurocirujano de la UCSF y coinvestigador principal del estudio. Chang dirige un ensayo clínico en la UCSF cuyo objetivo es desarrollar tecnología de neuroprótesis del habla mediante conjuntos de electrodos de alta densidad que registran la actividad neuronal directamente desde la superficie cerebral. “Es emocionante que los últimos avances en IA estén acelerando enormemente el uso práctico de las BCI en el mundo real en un futuro próximo”, concluyó.
Interfaces de detección cerebral
Los investigadores también demostraron que su enfoque puede funcionar bien con una variedad de otras interfaces de detección cerebral, incluidas las matrices de microelectrodos (MEA) en las que los electrodos penetran la superficie del cerebro, o grabaciones no invasivas (sEMG) que utilizan sensores en la cara para medir la actividad muscular.
“Al demostrar una síntesis precisa de cerebro a voz en otros conjuntos de datos de habla silenciosa, demostramos que esta técnica no se limita a un tipo específico de dispositivo”, afirmó Kaylo Littlejohn, estudiante de doctorado del Departamento de Ingeniería Eléctrica y Ciencias de la Computación de UC Berkeley y coautora principal del estudio. “El mismo algoritmo puede utilizarse en diferentes modalidades, siempre que exista una buena señal”.
Descodificación de datos neuronales en voz
Según el coautor principal del estudio, Cheol Jun Cho, quien también es estudiante de doctorado en ingeniería eléctrica y ciencias de la computación en la UC Berkeley, la neuroprótesis funciona tomando muestras de datos neuronales de la corteza motora, la parte del cerebro que controla la producción del habla, y luego utiliza IA para decodificar la función cerebral en habla.
“Básicamente, interceptamos señales donde el pensamiento se traduce en articulación y en medio de ese control motor”, dijo. “Así que lo que decodificamos es después de que un pensamiento ha surgido, después de que hemos decidido qué decir, después de que hemos decidido qué palabras usar y cómo mover los músculos del tracto vocal”.
Para recolectar los datos necesarios para entrenar su algoritmo, los investigadores primero le pidieron a Ann, la paciente, que mirara una indicación en la pantalla (como la frase: “Hola, ¿cómo estás?”) y luego intentara decir esa oración en silencio.
“Esto nos proporcionó un mapeo entre las ventanas fragmentadas de actividad neuronal que ella genera y la oración objetivo que está tratando de decir, sin necesidad de vocalizar en ningún momento”, dijo Littlejohn.
Dado que Ann no tiene vocalización residual, los investigadores no contaban con un audio objetivo, o salida, al que pudieran asignar los datos neuronales, la entrada. Resolvieron este desafío utilizando IA para completar los detalles faltantes.
“Usamos un modelo de texto a voz preentrenado para generar audio y simular un objetivo”, dijo Cho. “Y también usamos la voz de Ann antes de la lesión, así que al decodificar la salida, suena más parecida a la suya”.
La neuroprótesis cerebro-voz restaura el habla natural
Transmisión de voz casi en tiempo real
En su estudio previo sobre BCI , los investigadores tuvieron una larga latencia para la decodificación, de aproximadamente 8 segundos de retraso para una sola oración. Con el nuevo enfoque de transmisión, se puede generar una salida audible casi en tiempo real, mientras el sujeto intenta hablar.
Para medir la latencia, los investigadores emplearon métodos de detección de voz, que les permitieron identificar las señales cerebrales que indican el inicio de un intento de habla.
“Podemos ver que, en relación con esa señal de intención, en un segundo, estamos obteniendo el primer sonido”, dijo Anumanchipalli. “Y el dispositivo puede decodificar el habla continuamente, para que Ann pueda seguir hablando sin interrupciones”.
Esta mayor velocidad no se redujo en precisión. La interfaz más rápida ofreció el mismo alto nivel de precisión de decodificación que su enfoque anterior, sin transmisión.
“Es prometedor”, dijo Littlejohn. “Antes, no se sabía si el habla inteligible podía transmitirse desde el cerebro en tiempo real”.
Anumanchipalli añadió que los investigadores no siempre saben si los sistemas de IA a gran escala están aprendiendo y adaptándose, o simplemente identificando patrones y repitiendo partes de los datos de entrenamiento. Por ello, los investigadores también probaron la capacidad del modelo en tiempo real para sintetizar palabras que no formaban parte del vocabulario del conjunto de datos de entrenamiento; en este caso, 26 palabras raras del alfabeto fonético de la OTAN, como «Alpha», «Bravo», «Charlie», etc.
“Queríamos ver si podíamos generalizar a las palabras invisibles y decodificar realmente los patrones de habla de Ann”, dijo. “Descubrimos que nuestro modelo lo hace bien, lo que demuestra que efectivamente está aprendiendo los componentes básicos del sonido o la voz”.
Recordamos que SALUD A DIARIO es un medio de comunicación que difunde información de carácter general relacionada con distintos ámbitos sociosanitarios, por lo que NO RESPONDEMOS a consultas concretas sobre casos médicos o asistenciales particulares. Las noticias que publicamos no sustituyen a la información, el diagnóstico y/o tratamiento o a las recomendaciones QUE DEBE FACILITAR UN PROFESIONAL SANITARIO ante una situación asistencial determinada.
SALUD A DIARIO se reserva el derecho de no publicar o de suprimir todos aquellos comentarios contrarios a las leyes españolas o que resulten injuriantes, así como los que vulneren el respeto a la dignidad de la persona o sean discriminatorios. No se publicarán datos de contacto privados ni serán aprobados comentarios que contengan 'spam', mensajes publicitarios o enlaces incluidos por el autor con intención comercial.
En cualquier caso, SALUD A DIARIO no se hace responsable de las opiniones vertidas por los usuarios a través de los canales de participación establecidos, y se reserva el derecho de eliminar sin previo aviso cualquier contenido generado en los espacios de participación que considere fuera de tema o inapropiados para su publicación.
* Campos obligatorios