HyperAI

Zweig a dit un jour :La plus grande chance dans la vie d’une personne est de découvrir sa mission au milieu de sa vie, quand elle est jeune et forte.

Quel est le plus grand malheur de l’homme ?

À mon avis, le plus grand malheur dans la vie d’une personne estRien n’est pire que de perdre soudainement toute capacité de parler et de bouger à la fleur de l’âge.——Du jour au lendemain, les rêves, les carrières et les souhaits se sont tous transformés en néant et la vie a été bouleversée.

Ann est un exemple malheureux.

30 ans, aphasie due à un accident vasculaire cérébral

Un jour de 2005, Ann, qui avait toujours été en bonne santé, a soudainement développé des étourdissements, des troubles de l’élocution, une tétraplégie et une faiblesse musculaire. Elle a été diagnostiquée avecinfarctus du tronc cérébral(Ce que nous appelons « AVC » dans la vie quotidienne),Accompagnée d'une dissection de l'artère vertébrale gauche et d'une occlusion de l'artère basilaire.

Cet accident vasculaire cérébral inattendu a apporté à Ann unsyndrome d'enfermementUn sous-produit de cette maladie : les personnes atteintes de cette maladie ont tous leurs sens et leur conscience, mais ne peuvent mobiliser aucun muscle du corps. Les patients ne peuvent ni bouger ni parler de manière autonome, et certains ne peuvent même pas respirer.

Comme le mot « verrouillé » le reflète littéralement, le corps qui emmène les gens ordinaires à travers des milliers de montagnes et de rivières est devenu une cage qui scelle l'âme du patient.

À cette époque, Ann n’avait que 30 ans, était mariée depuis 2 ans et 2 mois, sa fille n’avait que 13 mois et elle était professeur de mathématiques dans un lycée au Canada. « Tout m’a été enlevé du jour au lendemain. » Ann a ensuite utilisé l’appareil pour taper lentement cette phrase sur l’ordinateur.

Après des années de physiothérapie, Ann pouvait respirer, bouger légèrement la tête, cligner des yeux et dire quelques mots, mais c'était tout.

Vous devez savoir que dans la vie normale, la vitesse de parole moyenne d'une personne est 160-200 mots/minuteEn 2007, une étude du département de psychologie de l'Université de l'Arizona a montré que les hommes disent en moyenne 15,669 mots que les femmes disent en moyenne 16,215 mots (en moyenne un mot correspond à 1,5 à 2 caractères chinois).

Dans un monde où le langage est le principal moyen de communication interpersonnelle, on peut imaginer combien de besoins d’Ann, en raison de son expression limitée, ont été réduits au silence.Ce qui est perdu avec l’aphasie, ce n’est pas seulement la qualité de vie, mais aussi la personnalité et l’identité.Et combien de personnes paralysées et aphasiques dans le monde sont dans la même situation qu'Ann ?

Paralysé depuis 18 ans, il parle à nouveau

Restaurer la capacité de communiquer pleinement et naturellement est le plus grand désir de toute personne ayant perdu la parole en raison d’une paralysie.Dans le monde technologique hautement développé d’aujourd’hui, existe-t-il un moyen d’utiliser la puissance de la technologie pour restaurer la capacité de communication interpersonnelle des patients ?

avoir!

Récemment, une équipe de recherche de l'Université de Californie à San Francisco et de l'Université de Californie à BerkeleyUtiliser l'IA pour développer une nouvelle technologie cerveau-ordinateurAnn, qui était restée sans voix pendant 18 ans, a retrouvé sa voix "Parler"et générer des images vivesExpressions faciales, aidant les patients à communiquer avec les autres en temps réel à une vitesse et une qualité compatibles avec une interaction sociale normale.

Ann utilise un avatar numérique pour parler aux gens

C’est la première fois dans l’histoire de l’humanité que la parole et les expressions faciales sont synthétisées à partir de signaux cérébraux !

Des recherches antérieures menées par l’équipe de l’UC ont montré qu’il est possible de décoder le langage à partir de l’activité cérébrale de personnes paralysées, mais uniquement sous forme de texte, et à une vitesse et un vocabulaire limités.

Cette fois, ils veulent aller plus loin :Il permet une communication textuelle plus rapide avec un vocabulaire étendu tout en récupérant la parole et les mouvements du visage associés à la parole.

En s'appuyant sur l'apprentissage automatique et la technologie d'interface cerveau-ordinateur, l'équipe de recherche a obtenu les résultats suivants, publiés dans Nature le 23 août 2023 :

► Pourtexte, décodant les signaux cérébraux des sujets en texte à un rythme de 78 mots par minute, avec un taux d'erreur de mots moyen de 25%, ce qui est plus de 4 fois plus rapide que le dispositif de communication actuellement utilisé par les sujets (14 mots/minute) ;

►PourAudio vocal, synthétisant rapidement les signaux cérébraux en sons compréhensibles et personnalisés qui sont cohérents avec la voix du sujet avant la blessure ;

►PourAvatar facial numérique, permettant de contrôler les mouvements du visage virtuel pour les gestes de communication vocale et non vocale.

Lien vers l'article :

https://www.nature.com/articles/s41586-023-06443-4

Vous devez être curieux.Comment ce miracle historique a-t-il été réalisé ?Ensuite, analysons cet article en détail et voyons comment les chercheurs ont ramené le virus à la vie.

1. Logique sous-jacente Signaux cérébraux → parole + expressions faciales

Le cerveau humain transmet des informations par l’intermédiaire des nerfs périphériques et du tissu musculaire, tandis que la capacité linguistique est générée par le cortex cérébral. « Centre de langues »contrôlé.

La raison pour laquelle les patients victimes d'un AVC souffrent d'aphasie est que la circulation sanguine est obstruée et que la zone du langage du cerveau est endommagée en raison du manque d'oxygène et de nutriments importants, ce qui fait qu'un ou plusieurs mécanismes de communication linguistique ne peuvent pas fonctionner correctement, ce qui entraîne un dysfonctionnement du langage.

En réponse, une équipe de recherche de l’Université de Californie, de San Francisco et de Berkeley a conçu un « Prothèse neurale vocale multimodale », en utilisant un électroencéphalogramme cortical à grande échelle et à haute densité (ECoG) pour décoder le texte et la sortie vocale audiovisuelle représentés par le conduit vocal distribué dans tout le cortex sensoriel (SMC), c'est-à-dire en capturant les signaux cérébraux à la source et en les « traduisant » en texte, parole et même expressions faciales correspondants par des moyens techniques.

Décodage multimodal de la parole chez les patients atteints de paralysie des voies vocales

2. Processus et mise en œuvre Interface cerveau-ordinateur + algorithme d'IA

Le premier est le moyen physique.

Les chercheurs ont implanté unRéseau EEG haute densitéetConnecteur d'amarrage transcutané, couvrant les domaines liés à la production et à la perception de la parole.

Le tableau se compose de 253Les électrodes en forme de disque sont utilisées pour intercepter les signaux cérébraux qui sont initialement envoyés aux muscles de la langue, de la mâchoire, de la gorge et du visage d'Ann. Un câble se branche sur un port fixé sur la tête d'Ann, reliant les électrodes à un ensemble d'ordinateurs.

Le réseau d’électrodes a été implanté dans la zone de contrôle du langage à la surface du cortex cérébral du sujet.

La deuxième est la construction d’algorithmes.

Pour identifier les signaux vocaux cérébraux uniques d'Ann,L’équipe de recherche a travaillé avec elle pendant plusieurs semaines pour former et évaluer le modèle d’apprentissage en profondeur.

Les chercheurs ont créé un ensemble de 1 024 phrases courantes basées sur le corpus Twitter nltk et le Cornell Film Corpus, demandant à Ann de parler silencieusement à un rythme naturel. Elle répète sans cesse différentes phrases de son vocabulaire conversationnel de 1 024 mots.Jusqu’à ce que l’ordinateur reconnaisse les modèles d’activité cérébrale associés à ces sons.

Il convient de noter que ce modèle n’entraîne pas l’IA à reconnaître des mots entiers.Au lieu de cela, un système a été crééDécoder les mots à partir des phonèmesPar exemple, « Bonjour » contient quatre phonèmes : « HH », « AH », « L » et « OW ».

Grâce à cette méthode, un ordinateur n’a besoin d’apprendre que 39 phonèmes pour décoder n’importe quel mot anglais.Cela améliore non seulement la précision, mais augmente également la vitesse de 3 fois.

Remarque : Le phonème est la plus petite unité sonore d'une langue, qui peut décrire les caractéristiques de prononciation de la parole, y compris le lieu d'articulation, la méthode de prononciation et la vibration des cordes vocales. Par exemple, les phonèmes de an sont composés de /ə/ et /n/.

Ce processus de décodage des phonèmes est similaire au processus d’apprentissage de la parole par un bébé. Selon l’opinion généralement acceptée dans le domaine de la linguistique du développement, les nouveau-nés peuvent distinguer les différentes langues du monde. 800 individuelphonème. Les enfants d’âge préscolaire ne comprennent peut-être pas l’écriture et le sens des mots et des phrases, mais ils peuvent progressivement apprendre la prononciation et comprendre la langue en percevant, en distinguant et en imitant les phonèmes.

Enfin, il y a la synthèse de la parole et des expressions faciales.

Les bases ont été posées et l’étape suivante consiste à montrer la voix et les expressions faciales.Les chercheursSynthèse vocaleetAvatar numériquepour résoudre ce problème.

Voix, les chercheurs ont développé un algorithme de parole synthétique utilisant des enregistrements de la voix d’Ann avant son AVC pour que l’avatar numérique lui ressemble le plus possible.

Expressions facialesL'avatar numérique d'Ann a été créé à l'aide d'un logiciel développé par Speech Graphics et apparaît comme une animation d'un visage féminin à l'écran.

Les chercheurs ont personnalisé le processus d’apprentissage automatique.Pour adapter le logiciel aux signaux que le cerveau d'Ann envoie lorsqu'elle essaie de parler, montrant ainsi l'ouverture et la fermeture de la mâchoire, les lèvres saillantes et rétractées, la langue se déplaçant de haut en bas, ainsi que les mouvements et gestes du visage qui expriment le bonheur, la tristesse et la surprise.

Ann travaille avec des chercheurs sur la formation d'algorithmes

Perspectives d'avenir

« Notre objectif est de restaurer une forme de communication complète et concrète », a déclaré le Dr Edward Chang, chef du service de neurochirurgie à l'UCSF., qui est la manière la plus naturelle pour nous de parler aux autres… L’objectif de combiner la parole audible avec des avatars réels permet la pleine manifestation de la communication linguistique humaine, qui est bien plus qu’un simple langage.

La prochaine étape pour l’équipe de recherche estCréer une version sans fil,Se débarrasser de la connexion physique de l'interface cerveau-ordinateur, permettant aux personnes paralysées d'utiliser cette technologie pour contrôler librement leurs téléphones portables et ordinateurs personnels, ce qui aura un impact profond sur leur indépendance et leur interaction sociale.

Des assistants vocaux sur les téléphones portables, du paiement électronique par reconnaissance faciale aux bras robotisés dans les usines et aux robots de tri sur les chaînes de production,L’IA étend les membres et les sens humains et pénètre progressivement dans tous les aspects de notre production et de notre vie.

Les chercheurs se concentrent sur le groupe particulier des personnes paralysées et aphasiques, en utilisant la puissance de l'IA pour les aider à restaurer leur capacité de communication naturelle, ce qui devrait favoriser la communication entre les patients et leurs proches et amis, et élargir leurs possibilités de retrouver une interaction interpersonnelle.Et enfinQualité de vie élevée des patients.

Nous sommes ravis de cette réussite et attendons avec impatience d’entendre d’autres bonnes nouvelles sur la manière dont l’IA profite à l’humanité.

Liens de référence :

[1] https://www.sciencedaily.com/releases/2023/08/230823122530.htm

[2] http://mrw.so/6nWwSB

Un Accident Vasculaire Cérébral l'a Laissée Sans Voix Pendant 18 Ans, l'IA + Interface cerveau-ordinateur l'aide À « Parler Avec Ses Pensées »

30 ans, aphasie due à un accident vasculaire cérébral

Paralysé depuis 18 ans, il parle à nouveau

1. Logique sous-jacente Signaux cérébraux → parole + expressions faciales

2. Processus et mise en œuvre Interface cerveau-ordinateur + algorithme d'IA

Perspectives d'avenir