HyperAIHyperAI
il y a 10 jours

Pontage associatif multi-modalité par le biais de la mémoire : la reconnaissance de sons vocaux à partir d'une vidéo de visage

{Yong Man Ro, Se Jin Park, Joanna Hong, Minsu Kim}
Pontage associatif multi-modalité par le biais de la mémoire : la reconnaissance de sons vocaux à partir d'une vidéo de visage
Résumé

Dans cet article, nous introduisons un nouveau cadre de pontage multimodal audio-visuel capable d'utiliser à la fois des informations audio et visuelles, même en présence d'entrées unimodales. Nous exploitons un réseau à mémoire qui stocke les représentations de modalités sources (c’est-à-dire visuelles) et cibles (c’est-à-dire audio), où la représentation source correspond à ce qui nous est fourni, tandis que la représentation cible est celle que nous souhaitons obtenir à partir du réseau à mémoire. Nous construisons ensuite un pont associatif entre les mémoires source et cible, en tenant compte des relations intermodales entre ces deux types de mémoire. En apprenant ces relations intermodales via le pont associatif, le cadre de pontage proposé parvient à extraire les représentations de la modalité cible à l’intérieur du réseau à mémoire, même avec une entrée uniquement de la modalité source, tout en fournissant des informations riches pour les tâches ultérieures. Nous appliquons ce cadre proposé à deux tâches : la lecture des lèvres et la reconstruction de la parole à partir d’une vidéo silencieuse. Grâce au pont associatif et aux mémoires spécifiques aux modalités, chaque tâche bénéficie d’un enrichissement par le contexte audio rappelé, permettant d’atteindre des performances de pointe. Nous vérifions également que le pont associatif établit correctement les relations entre les mémoires source et cible.