HyperAIHyperAI

Command Palette

Search for a command to run...

Temporale-Relationale Cross-Transformer für Few-Shot-Aktionserkennung

Toby Perrett Alessandro Masullo Tilo Burghardt Majid Mirmehdi Dima Damen

Zusammenfassung

Wir stellen einen neuartigen Ansatz für die Few-Shot-Aktionserkennung vor, bei dem zeitlich korrespondierende Frame-Tupel zwischen dem Query und Videos im Support-Set identifiziert werden. Im Gegensatz zu früheren Few-Shot-Ansätzen nutzen wir die CrossTransformer-Attention-Mechanismen, um Klassenprototypen zu konstruieren, um relevante Teilsequenzen aller Support-Videos zu erfassen, anstatt klassische Mittelwerte oder einzelne beste Übereinstimmungen zu verwenden. Video-Repräsentationen werden aus geordneten Tupeln mit variabler Frame-Anzahl gebildet, was den Vergleich von Teilsequenzen von Aktionen unterschiedlicher Geschwindigkeiten und zeitlicher Verschiebungen ermöglicht.Unsere vorgeschlagene Temporal-Relational CrossTransformer (TRX) erreicht state-of-the-art Ergebnisse auf den Few-Shot-Splits von Kinetics, Something-Something V2 (SSv2), HMDB51 und UCF101. Insbesondere übertrifft unsere Methode die vorherigen Ansätze auf SSv2 deutlich um 12 %, was auf ihre Fähigkeit zurückzuführen ist, zeitliche Beziehungen präzise zu modellieren. Eine detaillierte Ablationsstudie unterstreicht die Bedeutung der gleichzeitigen Berücksichtigung mehrerer Support-Set-Videos sowie der Lernung von höherordentlichen relationalen CrossTransformer-Strukturen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp