HyperAIHyperAI
vor 13 Tagen

Hör mir zu: Fusionale Ansätze für die audioverstärkte zeitliche Aktionslokalisierung

Anurag Bagchi, Jazib Mahmood, Dolton Fernandes, Ravi Kiran Sarvadevabhatla
Hör mir zu: Fusionale Ansätze für die audioverstärkte zeitliche Aktionslokalisierung
Abstract

Stand der Technik Architekturen für ungeschnittene Video-Zeitliche Aktionslokalisierung (Temporal Action Localization, TAL) haben bisher ausschließlich die Modalitäten RGB und Flow berücksichtigt und die informationsreiche Audio-Modality weitgehend ungenutzt gelassen. Die Audio-Fusion wurde für das verwandte, jedoch vermutlich einfachere Problem der geschnittenen (Clip-Ebene) Aktionserkennung untersucht. TAL stellt jedoch eine einzigartige Reihe von Herausforderungen dar. In diesem Paper stellen wir einfache, jedoch wirksame, auf Fusionsansätzen basierende Methoden für TAL vor. Sofern uns bekannt ist, ist unsere Arbeit die erste, die Audio- und Video-Modalitäten gemeinsam für überwachte TAL betrachtet. Experimentell zeigen wir, dass unsere Ansätze die Leistung state-of-the-art-Methoden für reine Video-TAL konsistent verbessern. Insbesondere ermöglichen sie neue SOTA-Ergebnisse auf großen Benchmark-Datensätzen – ActivityNet-1.3 (54,34 mAP@0,5) und THUMOS14 (57,18 mAP@0,5). Unsere Experimente umfassen Ablationen mit verschiedenen Fusionsstrategien, Modalitätenkombinationen und TAL-Architekturen. Unser Code, die Modelle sowie die zugehörigen Daten sind unter https://github.com/skelemoa/tal-hmo verfügbar.

Hör mir zu: Fusionale Ansätze für die audioverstärkte zeitliche Aktionslokalisierung | Neueste Forschungsarbeiten | HyperAI