Reconstruction de la parole à l'aide du son réminiscent par mémoire vocale visuelle
L’objectif de ce travail est de reconstruire la parole à partir de vidéos silencieuses, de manière à la fois dépendante et indépendante du locuteur. Contrairement aux travaux antérieurs, principalement restreints à un cadre dépendant du locuteur, nous proposons une mémoire visuelle de la voix (Visual Voice memory) afin de restaurer les informations auditives essentielles et générer une parole appropriée à partir de différents locuteurs, y compris des locuteurs inconnus. Cette mémoire proposée intègre des informations auditives supplémentaires correspondant aux mouvements faciaux d’entrée, et stocke des contextes auditifs pouvant être rappelés à partir des caractéristiques visuelles fournies. Plus précisément, la mémoire visuelle de la voix comprend des emplacements mémoire pour les valeurs et les clés : les emplacements mémoire de valeurs servent à conserver les caractéristiques audio, tandis que les emplacements mémoire de clés stockent les caractéristiques visuelles associées aux mêmes emplacements que les caractéristiques audio sauvegardées. En guidant correctement chaque mémoire pour enregistrer les caractéristiques appropriées, le modèle peut produire une parole de qualité adéquate. Ainsi, notre méthode utilise à la fois des informations vidéo et audio pendant l’entraînement, mais ne nécessite aucune entrée auditive supplémentaire au moment de l’inférence. Nos contributions principales sont les suivantes : (1) la proposition d’une mémoire visuelle de la voix qui enrichit les caractéristiques visuelles par des informations audio pertinentes, permettant ainsi de générer une parole de haute qualité à partir de vidéos silencieuses ; (2) la capacité à entraîner le modèle sur plusieurs locuteurs, y compris des locuteurs inconnus, en mémorisant à la fois les caractéristiques audio et leurs correspondances visuelles. Nous validons le cadre proposé sur les jeux de données GRID et Lip2Wav, et montrons que notre méthode surpasser les performances des approches antérieures dans les deux cas : multi-locuteur et indépendant du locuteur. Nous démontrons également que la mémoire visuelle de la voix contient des informations significatives permettant une reconstruction efficace de la parole.