Temporale Saliency Query Network für eine effiziente Videoerkennung

Effiziente Videoerkennung ist ein aktuelles Forschungsthema, das durch das explosive Wachstum von Multimedia-Daten im Internet und auf mobilen Geräten hervorgerufen wird. Die meisten bestehenden Methoden wählen auffällige Frames aus, ohne die klassenspezifischen Auffälligkeitswerte zu berücksichtigen, wodurch die implizite Beziehung zwischen der Auffälligkeit von Frames und ihrer zugehörigen Kategorie vernachlässigt wird. Um dieses Problem zu mildern, entwickeln wir einen neuartigen Temporal Saliency Query (TSQ)-Mechanismus, der klassenspezifische Informationen einbezieht, um feinkörnige Hinweise für die Auffälligkeitsmessung bereitzustellen. Konkret modellieren wir den Prozess der klassenspezifischen Auffälligkeitsmessung als eine Abfrage-Antwort-Aufgabe. Für jede Kategorie dient das gemeinsame Muster dieser Klasse als Abfrage, und die auffälligsten Frames antworten darauf. Anschließend werden die berechneten Ähnlichkeiten als Frame-Auffälligkeitswerte verwendet. Um dies zu realisieren, schlagen wir ein Temporal Saliency Query Network (TSQNet) vor, das zwei Instantiierungen des TSQ-Mechanismus basierend auf visuellen Ähnlichkeiten und textuellen Ereignis-Objekt-Beziehungen enthält. Anschließend werden intermodale Interaktionen eingeführt, um den Informationsaustausch zwischen den beiden Modalitäten zu fördern. Schließlich nutzen wir die klassenspezifischen Auffälligkeitswerte der zuverlässigsten Kategorien, die von beiden Modalitäten generiert werden, zur Auswahl der auffälligsten Frames. Umfangreiche Experimente belegen die Wirksamkeit unseres Ansatzes, der auf den Datensätzen ActivityNet, FCVID und Mini-Kinetics Ergebnisse auf höchstem Stand erreicht. Die Projektseite finden Sie unter https://lawrencexia2008.github.io/projects/tsqnet.