30.3 C
Colombia
sábado, julio 5, 2025

Un hombre con ALS puede hablar y cantar nuevamente gracias a un implante cerebral y una voz sintetizada por IA


A la edad de 45 años, Casey Harrell perdió su voz ante la esclerosis lateral amiotrófica (ALS). También llamada enfermedad de Lou Gehrig, el trastorno se come nervios que controlan los músculos en el cerebro y la médula espinal. Los síntomas comienzan con los músculos debilitados, contracciones incontrolables y dificultad para tragar. Finalmente, los pacientes pierden el management de los músculos en la lengua, la garganta y los labios, robándolos de su capacidad para hablar.

A diferencia de los pacientes paralizados, Harrell aún podría producir sonidos que los cuidadores experimentados podían entender, pero no eran inteligibles en una conversación easy. Ahora, gracias a un implante cerebral guiado por IA, puede una vez más “hablar” usando una voz generada por computadora que suena como suya.

El sistema, desarrollado por investigadores de la Universidad de California, Davis, casi no tiene un retraso detectable al traducir su actividad cerebral en discursos coherentes. En lugar de producir una voz sintetizada monótona, el sistema puede detectar entonaciones, por ejemplo, una pregunta versus una declaración, y enfatizar una palabra. También traduce la actividad cerebral que codifica palabras sin sentido como “HMM” o “EWW”, lo que hace que la voz generada suene pure.

“Con la síntesis de voz instantánea, los usuarios de neuroprotesis podrán estar más incluidos en una conversación. Por ejemplo, pueden interrumpir y es menos possible que las personas los interrumpan accidentalmente”, dicho El autor del estudio Sergey Stavisky en un comunicado de prensa.

El estudio se calienta después de los talones de Otra IA Método que decodifica los pensamientos de una mujer paralizada en el discurso en un segundo. Los sistemas anteriores tomaron casi medio minuto, más del tiempo suficiente para interrumpir la conversación regular. Juntos, los dos estudios muestran el poder de la IA para descifrar la charla eléctrica del cerebro y convertirla en habla en tiempo actual.

En el caso de Harrell, el entrenamiento se completó en la comodidad de su hogar. Aunque el sistema requirió un poco de monitoreo y retoques, allane el camino para un producto disponible comercialmente para aquellos que han perdido la capacidad de hablar.

“Este es el Santo Grial en el discurso bcis [brain-computer interfaces]”, Christian Herff en la Universidad Maastricht para Naturalezaque no estuvo involucrado en el estudio, dijo Naturaleza.

Escuchando

Los científicos han tratado de restaurar la capacidad de hablar por aquellos que lo han perdido, ya sea por lesiones o enfermedades.

Una estrategia es aprovechar la actividad eléctrica del cerebro. Cuando nos preparamos para decir algo, el cerebro dirige los músculos en la garganta, la lengua y los labios para formar sonidos y palabras. Al escuchar su charla eléctrica, es posible decodificar el discurso previsto. Los algoritmos unen los datos neuronales y generan palabras y oraciones como texto o discurso sintetizado.

El proceso puede sonar directo. Pero tardó años en los científicos en identificar las regiones cerebrales más confiables para recopilar la actividad relacionada con el habla. Incluso entonces, el tiempo de retraso desde el pensamiento hasta la producción, ya sea texto o discurso sintetizado, ha sido lo suficiente como para hacer que la conversación sea incómoda.

Luego están los matices. El discurso no se trata solo de producir oraciones audibles. Cómo Dices que algo también importa. La entonación nos cube si el orador está haciendo una pregunta, declarando sus necesidades, bromeando o siendo sarcásticas. El énfasis en las palabras individuales destaca la mentalidad y la intención del hablante. Estos aspectos son especialmente importantes para los idiomas tonales, como los chinos, donde un cambio en el tono o el tono para la misma “palabra” puede tener significados muy diferentes. (“MA”, por ejemplo, puede significar mamá, adormecedora, caballo o maldición, dependiendo de la entonación).

Háblame

Harrell es parte del Ensayo clínico de brainingate2un proyecto de larga information que busca restaurar las habilidades perdidas utilizando implantes cerebrales. Se inscribió en el ensayo a medida que avanzaban sus síntomas de ELA. Aunque aún podía vocalizar, su discurso period difícil de entender y requería que los oyentes expertos de su equipo de atención tradujeran. Este fue su principal modo de comunicación. También tuvo que aprender a hablar más lento para hacer que su discurso residual sea más inteligible.

Hace cinco años, Harrell tenía cuatro implantes de 64 microelectrodos insertados en la circunvolución precentral izquierda de su cerebro, una región que controlaba múltiples funciones cerebrales, incluida la coordinación del habla.

“Estamos grabando desde la parte del cerebro que está tratando de enviar estos comandos a los músculos. Y básicamente estamos escuchando eso, y estamos traduciendo esos patrones de actividad cerebral a un fonema, como una sílaba o la unidad de habla, y luego las palabras que intentan decir”, “, dicho Stavisky en ese momento.

En solo dos sesiones de entrenamientoHarrell tenía el potencial de decir 125,000 palabras, un vocabulario lo suficientemente grande para el uso diario. El sistema tradujo su actividad neuronal a un sintetizador de voz que imitaba su voz. Después de más entrenamiento, el implante logró una precisión del 97.5 por ciento a medida que avanzaba en su vida diaria.

“La primera vez que probamos el sistema, lloró de alegría cuando las palabras que estaba tratando de decir correctamente aparecieron en la pantalla. Todos lo hicimos”. dicho Stavisky.

En el nuevo estudio, el equipo buscó hacer que el discurso generado sea aún más pure con menos retraso y más personalidad. Una de las partes más difíciles de la síntesis de voz en tiempo actual es no saber cuándo y cómo la persona está tratando de hablar, o su entonación prevista. “Estoy bien” tiene significados muy diferentes dependiendo del tono.

El equipo capturó la actividad cerebral de Harrell mientras intentaba hablar una oración que se muestra en una pantalla. Los picos eléctricos se filtraron para eliminar el ruido en un milisegundo segmentos y alimentados en un decodificador. Como el Rosetta piedrael algoritmo mapeó las características neuronales específicas de las palabras y el tono, que se reprodujeron en Harrell a través de un sintetizador de voz con solo un Régalas de 25 milisegundos—No, el tiempo que lleva a una persona escuchar su propia voz, escribió el equipo.

En lugar de decodificar fonemas o palabras, la IA capturó la intención de Harrell de hacer sonidos cada 10 milisegundos, permitiéndole decir palabras que no están en un diccionario, como “hmm” o “eww”. Podría deletrear palabras y responder a las preguntas abiertas, diciéndole a los investigadores que la voz sintética lo hacía “feliz” y que se sentía como “su voz actual”.

El equipo también registró la actividad cerebral cuando Harrell intentó hablar el mismo conjunto de oraciones que declaraciones o preguntas, este último con un mayor tono. Las cuatro matrices de electrodos registraron una huella dactilar neural de patrones de actividad cuando se habló la oración como una pregunta.

El sistema, una vez entrenado, también podría detectar énfasis. Se le pidió a Harrell que estresara cada palabra individualmente en la oración: “Nunca dije que robó mi dinero”, lo que puede tener múltiples significados. Su actividad cerebral aumentó antes de decir la palabra enfatizada, que el algoritmo capturó y usó para guiar la voz sintetizada. En otra prueba, el sistema recogió múltiples lanzamientos mientras intentaba cantar diferentes melodías.

Levanta la voz

La IA no es perfecta. Los voluntarios podrían entender el resultado aproximadamente el 60 por ciento del tiempo, muy lejos del sistema de cerebro a texto casi perfecto que Harrell está utilizando actualmente. Pero la nueva IA trae personalidad particular person al discurso sintetizado, que generalmente produce una voz monótona. Descifrar el discurso en tiempo actual también permite a la persona interrumpir u objetar durante una conversación, haciendo que la experiencia se sienta más pure.

“No siempre usamos palabras para comunicar lo que queremos. Tenemos interjecciones. Tenemos otras vocalizaciones expresivas que no están en el vocabulario”, el autor de estudio Maitreyee Wairagkar dijo Naturaleza.

Debido a que la IA está entrenada en sonidos, no en el vocabulario inglés, podría adaptarse a otros idiomas, especialmente tonales como el chino. El equipo también está buscando aumentar la precisión del sistema colocando más electrodos en personas que han perdido su discurso debido a un accidente cerebrovascular o enfermedades neurodegenerativas.

“Los resultados de esta investigación proporcionan esperanza a las personas que quieren hablar pero no pueden … este tipo de tecnología podría ser transformador para las personas que viven con parálisis”, dicho Autor de estudio David Brandman.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles