HyperAIHyperAI

Command Palette

Search for a command to run...

Détection de Mots-clés Visuels avec l'Attention

K R Prajwal* [email protected] Liliane Momeni* [email protected] Triantafyllos Afouras [email protected] Andrew Zisserman [email protected]

Résumé

Dans cet article, nous abordons la tâche de détection de mots-clés parlés dans des séquences vidéo silencieuses, également connue sous le nom de détection visuelle de mots-clés. À cette fin, nous examinons des modèles basés sur les Transformers qui intègrent deux flux : une encodage visuel de la vidéo et une encodage phonétique du mot-clé, et qui produisent la localisation temporelle du mot-clé s'il est présent. Nos contributions sont les suivantes : (1) Nous proposons une nouvelle architecture, le Transpotter, qui utilise une attention intermodale complète entre les flux visuels et phonétiques ; (2) Nous montrons par des évaluations approfondies que notre modèle surpass largement les méthodes précédentes d'état de l'art en détection visuelle de mots-clés et en lecture labiale sur les jeux de données difficiles LRW, LRS2 et LRS3 ; (3) Nous démontrons la capacité de notre modèle à détecter des mots dans des conditions extrêmes, telles que des articulations isolées dans des vidéos de langage des signes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Détection de Mots-clés Visuels avec l'Attention | Articles | HyperAI