HyperAIHyperAI
il y a 2 mois

Détection de Mots-clés Visuels avec l'Attention

K R Prajwal; Liliane Momeni; Triantafyllos Afouras; Andrew Zisserman
Détection de Mots-clés Visuels avec l'Attention
Résumé

Dans cet article, nous abordons la tâche de détection de mots-clés parlés dans des séquences vidéo silencieuses, également connue sous le nom de détection visuelle de mots-clés. À cette fin, nous examinons des modèles basés sur les Transformers qui intègrent deux flux : une encodage visuel de la vidéo et une encodage phonétique du mot-clé, et qui produisent la localisation temporelle du mot-clé s'il est présent. Nos contributions sont les suivantes : (1) Nous proposons une nouvelle architecture, le Transpotter, qui utilise une attention intermodale complète entre les flux visuels et phonétiques ; (2) Nous montrons par des évaluations approfondies que notre modèle surpass largement les méthodes précédentes d'état de l'art en détection visuelle de mots-clés et en lecture labiale sur les jeux de données difficiles LRW, LRS2 et LRS3 ; (3) Nous démontrons la capacité de notre modèle à détecter des mots dans des conditions extrêmes, telles que des articulations isolées dans des vidéos de langage des signes.