HyperAIHyperAI
vor 2 Monaten

CAST: Kreuzaufmerksamkeit im Raum und in der Zeit für die Erkennung von Videoaktionen

Lee, Dongho ; Lee, Jongseo ; Choi, Jinwoo
CAST: Kreuzaufmerksamkeit im Raum und in der Zeit für die Erkennung von Videoaktionen
Abstract

Die Erkennung menschlicher Aktionen in Videos erfordert räumliches und zeitliches Verständnis. Die meisten existierenden Aktionserkennungsmodelle haben jedoch ein unbalanciertes räumlich-zeitliches Verständnis von Videos. In dieser Arbeit schlagen wir eine neuartige Zweiström-Architektur vor, die als Cross-Attention in Space and Time (CAST) bezeichnet wird und ein balanciertes räumlich-zeitliches Verständnis von Videos unter Verwendung ausschließlich von RGB-Eingaben erreicht. Das vorgeschlagene Bottleneck-Cross-Attention-Mechanismus ermöglicht es den räumlichen und zeitlichen Expertenmodellen, Informationen auszutauschen und synergetische Vorhersagen zu treffen, was zu einer verbesserten Leistung führt. Wir validieren die vorgeschlagene Methode durch umfangreiche Experimente auf öffentlichen Benchmarks mit unterschiedlichen Eigenschaften: EPIC-KITCHENS-100, Something-Something-V2 und Kinetics-400. Unsere Methode zeigt konsequent eine günstige Leistung über diese Datensätze hinweg, während die Leistung der existierenden Methoden je nach den Eigenschaften des Datensatzes schwankt.