Command Palette
Search for a command to run...
Traduction de la langue des signes avec un prototype itératif
Traduction de la langue des signes avec un prototype itératif
Huijie Yao Wengang Zhou Hao Feng Hezhen Hu Hao Zhou Houqiang Li
Résumé
Cet article présente IP-SLT, un cadre simple mais efficace pour la traduction de la langue des signes (SLT). Notre approche IP-SLT repose sur une structure récurrente et améliore la représentation sémantique (prototype) de la vidéo signée d'entrée par une méthode itérative de raffinement. L'idée s'inspire du comportement de lecture humaine, où une phrase peut être traitée de manière répétée jusqu'à atteindre une compréhension précise. Techniquement, IP-SLT se compose de trois composants : extraction de caractéristiques, initialisation du prototype et raffinement itératif du prototype. Le module d'initialisation génère un prototype initial à partir des caractéristiques visuelles extraites par le module d'extraction. Ensuite, le module de raffinement itératif utilise un mécanisme d'attention croisée pour affiner le prototype précédent en l'agrégant avec les caractéristiques vidéo d'origine. Par un processus de raffinement répété, le prototype converge progressivement vers un état plus stable et plus précis, permettant ainsi une traduction fluide et appropriée. Par ailleurs, afin d’exploiter la dépendance séquentielle des prototypes, nous proposons également une perte de distillation itérative, visant à transférer les connaissances de la dernière itération vers les itérations antérieures. Étant donné que le processus de décodage auto-régressif n’est exécuté qu’une seule fois lors de l’inférence, IP-SLT peut être facilement intégré à divers systèmes de SLT avec un surcoût acceptable. Des expériences abondantes ont été menées sur des benchmarks publics afin de démontrer l’efficacité de IP-SLT.