HyperAIHyperAI

Command Palette

Search for a command to run...

Cross-modal Consensus Network für weakly supervised Temporal Action Localization

Fa-Ting Hong Jia-Chang Feng Dan Xu Ying Shan Wei-Shi Zheng

Zusammenfassung

Schwach beschriftete zeitliche Aktionslokalisierung (WS-TAL) ist eine anspruchsvolle Aufgabe, die darauf abzielt, Aktionsinstanzen in einem gegebenen Video unter Verwendung von Video-level-Kategorisierungssupervision zu lokalisieren. In früheren Arbeiten werden sowohl visuelle als auch Bewegungsmerkmale verwendet, jedoch werden diese nicht angemessen genutzt, sondern lediglich durch einfache Verkettung oder Score-Level-Fusion kombiniert. In dieser Arbeit argumentieren wir, dass die aus vortrainierten Extraktoren, beispielsweise I3D, extrahierten Merkmale keine auf die WS-TAL-Aufgabe spezifischen Merkmale sind, weshalb eine Neukalibrierung der Merkmale erforderlich ist, um die Redundanz an aufgabenunrelevanten Informationen zu verringern. Daher schlagen wir ein cross-modales Konsensnetzwerk (CO²-Net) vor, um dieses Problem anzugehen. Im CO²-Netzwerk führen wir hauptsächlich zwei identische, neu vorgeschlagene cross-modale Konsensmodule (CCM) ein, die eine cross-modale Aufmerksamkeitsmechanik entwerfen, um die aufgabenunrelevante Informationsredundanz mithilfe der globalen Information aus der Hauptmodality und der cross-modalen lokalen Information der Hilfsmodality zu filtern. Zudem betrachten wir die Aufmerksamkeitsgewichte, die aus jedem CCM abgeleitet werden, als Pseudoziele der Aufmerksamkeitsgewichte des anderen CCM, um die Konsistenz der Vorhersagen beider CCMs zu gewährleisten und somit einen gegenseitigen Lernmechanismus zu etablieren. Schließlich führen wir umfangreiche Experimente auf zwei häufig verwendeten Datensätzen für zeitliche Aktionslokalisierung, THUMOS14 und ActivityNet1.2, durch, um unsere Methode zu validieren und erreichen dabei Ergebnisse auf dem Stand der Technik. Die experimentellen Ergebnisse zeigen, dass unser vorgeschlagenes cross-modales Konsensmodul repräsentativere Merkmale für die zeitliche Aktionslokalisierung generieren kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp