HyperAIHyperAI

Command Palette

Search for a command to run...

Hör mir zu: Fusionale Ansätze für die audioverstärkte zeitliche Aktionslokalisierung

Anurag Bagchi Jazib Mahmood Dolton Fernandes Ravi Kiran Sarvadevabhatla

Zusammenfassung

Stand der Technik Architekturen für ungeschnittene Video-Zeitliche Aktionslokalisierung (Temporal Action Localization, TAL) haben bisher ausschließlich die Modalitäten RGB und Flow berücksichtigt und die informationsreiche Audio-Modality weitgehend ungenutzt gelassen. Die Audio-Fusion wurde für das verwandte, jedoch vermutlich einfachere Problem der geschnittenen (Clip-Ebene) Aktionserkennung untersucht. TAL stellt jedoch eine einzigartige Reihe von Herausforderungen dar. In diesem Paper stellen wir einfache, jedoch wirksame, auf Fusionsansätzen basierende Methoden für TAL vor. Sofern uns bekannt ist, ist unsere Arbeit die erste, die Audio- und Video-Modalitäten gemeinsam für überwachte TAL betrachtet. Experimentell zeigen wir, dass unsere Ansätze die Leistung state-of-the-art-Methoden für reine Video-TAL konsistent verbessern. Insbesondere ermöglichen sie neue SOTA-Ergebnisse auf großen Benchmark-Datensätzen – ActivityNet-1.3 (54,34 mAP@0,5) und THUMOS14 (57,18 mAP@0,5). Unsere Experimente umfassen Ablationen mit verschiedenen Fusionsstrategien, Modalitätenkombinationen und TAL-Architekturen. Unser Code, die Modelle sowie die zugehörigen Daten sind unter https://github.com/skelemoa/tal-hmo verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp