HyperAIHyperAI

Command Palette

Search for a command to run...

Reconstruction de la parole à l'aide du son réminiscent par mémoire vocale visuelle

Yong Man Ro Se Jin Park Minsu Kim Joanna Hong

Résumé

L’objectif de ce travail est de reconstruire la parole à partir de vidéos silencieuses, de manière à la fois dépendante et indépendante du locuteur. Contrairement aux travaux antérieurs, principalement restreints à un cadre dépendant du locuteur, nous proposons une mémoire visuelle de la voix (Visual Voice memory) afin de restaurer les informations auditives essentielles et générer une parole appropriée à partir de différents locuteurs, y compris des locuteurs inconnus. Cette mémoire proposée intègre des informations auditives supplémentaires correspondant aux mouvements faciaux d’entrée, et stocke des contextes auditifs pouvant être rappelés à partir des caractéristiques visuelles fournies. Plus précisément, la mémoire visuelle de la voix comprend des emplacements mémoire pour les valeurs et les clés : les emplacements mémoire de valeurs servent à conserver les caractéristiques audio, tandis que les emplacements mémoire de clés stockent les caractéristiques visuelles associées aux mêmes emplacements que les caractéristiques audio sauvegardées. En guidant correctement chaque mémoire pour enregistrer les caractéristiques appropriées, le modèle peut produire une parole de qualité adéquate. Ainsi, notre méthode utilise à la fois des informations vidéo et audio pendant l’entraînement, mais ne nécessite aucune entrée auditive supplémentaire au moment de l’inférence. Nos contributions principales sont les suivantes : (1) la proposition d’une mémoire visuelle de la voix qui enrichit les caractéristiques visuelles par des informations audio pertinentes, permettant ainsi de générer une parole de haute qualité à partir de vidéos silencieuses ; (2) la capacité à entraîner le modèle sur plusieurs locuteurs, y compris des locuteurs inconnus, en mémorisant à la fois les caractéristiques audio et leurs correspondances visuelles. Nous validons le cadre proposé sur les jeux de données GRID et Lip2Wav, et montrons que notre méthode surpasser les performances des approches antérieures dans les deux cas : multi-locuteur et indépendant du locuteur. Nous démontrons également que la mémoire visuelle de la voix contient des informations significatives permettant une reconstruction efficace de la parole.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp