HyperAIHyperAI
vor 2 Monaten

Visuelles Keyword Spotting mit Aufmerksamkeit

K R Prajwal; Liliane Momeni; Triantafyllos Afouras; Andrew Zisserman
Visuelles Keyword Spotting mit Aufmerksamkeit
Abstract

In dieser Arbeit betrachten wir die Aufgabe, gesprochene Schlüsselwörter in stummen Videosequenzen zu erkennen – auch als visuelle Schlüsselworterkennung bekannt. Zu diesem Zweck untersuchen wir Transformer-basierte Modelle, die zwei Ströme verarbeiten: eine visuelle Kodierung des Videos und eine phonetische Kodierung des Schlüsselworts, und geben die zeitliche Position des Schlüsselworts aus, falls es vorhanden ist. Unsere Beiträge sind wie folgt:Wir schlagen eine neue Architektur vor, den Transpotter, der vollständige multimodale Aufmerksamkeit zwischen den visuellen und phonetischen Strömen verwendet.Durch umfangreiche Evaluierungen zeigen wir, dass unser Modell die bisherigen Stand-von-der-Kunst-Methoden für visuelle Schlüsselworterkennung und Lippenlesen auf den anspruchsvollen Datensätzen LRW, LRS2 und LRS3 deutlich übertrifft.Wir demonstrieren die Fähigkeit unseres Modells, Wörter unter extremen Bedingungen wie isolierten Mundbewegungen in Gebärdensprachvideos zu erkennen.Diese Ergebnisse unterstreichen die Effektivität und Robustheit unserer vorgeschlagenen Methode im Bereich der visuellen Schlüsselworterkennung.

Visuelles Keyword Spotting mit Aufmerksamkeit | Neueste Forschungsarbeiten | HyperAI