vor 8 Monaten

Zusammenfassung

Die Erkennung menschlicher Aktionen in Videos erfordert räumliches und zeitliches Verständnis. Die meisten existierenden Aktionserkennungsmodelle haben jedoch ein unbalanciertes räumlich-zeitliches Verständnis von Videos. In dieser Arbeit schlagen wir eine neuartige Zweiström-Architektur vor, die als Cross-Attention in Space and Time (CAST) bezeichnet wird und ein balanciertes räumlich-zeitliches Verständnis von Videos unter Verwendung ausschließlich von RGB-Eingaben erreicht. Das vorgeschlagene Bottleneck-Cross-Attention-Mechanismus ermöglicht es den räumlichen und zeitlichen Expertenmodellen, Informationen auszutauschen und synergetische Vorhersagen zu treffen, was zu einer verbesserten Leistung führt. Wir validieren die vorgeschlagene Methode durch umfangreiche Experimente auf öffentlichen Benchmarks mit unterschiedlichen Eigenschaften: EPIC-KITCHENS-100, Something-Something-V2 und Kinetics-400. Unsere Methode zeigt konsequent eine günstige Leistung über diese Datensätze hinweg, während die Leistung der existierenden Methoden je nach den Eigenschaften des Datensatzes schwankt.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Dongho Lee Jongseo Lee Jinwoo Choi

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Dongho Lee Jongseo Lee Jinwoo Choi

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

CAST: Kreuzaufmerksamkeit im Raum und in der Zeit für die Erkennung von Videoaktionen | Paper | HyperAI

Command Palette

CAST: Kreuzaufmerksamkeit im Raum und in der Zeit für die Erkennung von Videoaktionen

Dongho Lee Jongseo Lee Jinwoo Choi

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CAST: Kreuzaufmerksamkeit im Raum und in der Zeit für die Erkennung von Videoaktionen

Dongho Lee Jongseo Lee Jinwoo Choi

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CAST: Kreuzaufmerksamkeit im Raum und in der Zeit für die Erkennung von Videoaktionen

Dongho Lee Jongseo Lee Jinwoo Choi

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters