Temporale-Relationale Cross-Transformer für Few-Shot-Aktionserkennung

Wir stellen einen neuartigen Ansatz für die Few-Shot-Aktionserkennung vor, bei dem zeitlich korrespondierende Frame-Tupel zwischen dem Query und Videos im Support-Set identifiziert werden. Im Gegensatz zu früheren Few-Shot-Ansätzen nutzen wir die CrossTransformer-Attention-Mechanismen, um Klassenprototypen zu konstruieren, um relevante Teilsequenzen aller Support-Videos zu erfassen, anstatt klassische Mittelwerte oder einzelne beste Übereinstimmungen zu verwenden. Video-Repräsentationen werden aus geordneten Tupeln mit variabler Frame-Anzahl gebildet, was den Vergleich von Teilsequenzen von Aktionen unterschiedlicher Geschwindigkeiten und zeitlicher Verschiebungen ermöglicht.Unsere vorgeschlagene Temporal-Relational CrossTransformer (TRX) erreicht state-of-the-art Ergebnisse auf den Few-Shot-Splits von Kinetics, Something-Something V2 (SSv2), HMDB51 und UCF101. Insbesondere übertrifft unsere Methode die vorherigen Ansätze auf SSv2 deutlich um 12 %, was auf ihre Fähigkeit zurückzuführen ist, zeitliche Beziehungen präzise zu modellieren. Eine detaillierte Ablationsstudie unterstreicht die Bedeutung der gleichzeitigen Berücksichtigung mehrerer Support-Set-Videos sowie der Lernung von höherordentlichen relationalen CrossTransformer-Strukturen.