HyperAIHyperAI

Command Palette

Search for a command to run...

CAST: Kreuzaufmerksamkeit im Raum und in der Zeit für die Erkennung von Videoaktionen

Dongho Lee Jongseo Lee Jinwoo Choi

Zusammenfassung

Die Erkennung menschlicher Aktionen in Videos erfordert räumliches und zeitliches Verständnis. Die meisten existierenden Aktionserkennungsmodelle haben jedoch ein unbalanciertes räumlich-zeitliches Verständnis von Videos. In dieser Arbeit schlagen wir eine neuartige Zweiström-Architektur vor, die als Cross-Attention in Space and Time (CAST) bezeichnet wird und ein balanciertes räumlich-zeitliches Verständnis von Videos unter Verwendung ausschließlich von RGB-Eingaben erreicht. Das vorgeschlagene Bottleneck-Cross-Attention-Mechanismus ermöglicht es den räumlichen und zeitlichen Expertenmodellen, Informationen auszutauschen und synergetische Vorhersagen zu treffen, was zu einer verbesserten Leistung führt. Wir validieren die vorgeschlagene Methode durch umfangreiche Experimente auf öffentlichen Benchmarks mit unterschiedlichen Eigenschaften: EPIC-KITCHENS-100, Something-Something-V2 und Kinetics-400. Unsere Methode zeigt konsequent eine günstige Leistung über diese Datensätze hinweg, während die Leistung der existierenden Methoden je nach den Eigenschaften des Datensatzes schwankt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CAST: Kreuzaufmerksamkeit im Raum und in der Zeit für die Erkennung von Videoaktionen | Paper | HyperAI