HyperAIHyperAI
vor 17 Tagen

Modellierung räumlich-zeitlicher Relationen für Few-shot-Aktionserkennung

Anirudh Thatipelli, Sanath Narayan, Salman Khan, Rao Muhammad Anwer, Fahad Shahbaz Khan, Bernard Ghanem
Modellierung räumlich-zeitlicher Relationen für Few-shot-Aktionserkennung
Abstract

Wir stellen einen neuen Few-Shot-Aktionserkennungsansatz, STRM, vor, der die klassenspezifische Merkmalsunterscheidbarkeit verbessert und gleichzeitig höhere Ordnung zeitlicher Repräsentationen lernt. Der Schwerpunkt unseres Ansatzes liegt in einem neuartigen spatio-temporalen Verstärkungsmodul, das räumliche und zeitliche Kontexte durch spezialisierte Untermodule zur lokalen Patch-Ebene und globalen Frame-Ebene integriert. Die lokale Patch-Ebene erfasst die auf Erscheinung basierenden Merkmale von Aktionen, während die globale Frame-Ebene explizit den umfassenden zeitlichen Kontext kodiert und somit relevante Objektmerkmale über die Zeit hinweg erfasst. Die resultierenden spatio-temporal angereicherten Repräsentationen werden anschließend genutzt, um die relationale Übereinstimmung zwischen Abfrage- und Support-Aktionsuntersequenzen zu lernen. Zusätzlich führen wir einen Abfrage-Klasse-Ähnlichkeitsklassifikator auf den patch-ebenen angereicherten Merkmalen ein, um die klassenspezifische Merkmalsunterscheidbarkeit durch die Verstärkung des Merkmalslernens auf verschiedenen Stufen im vorgeschlagenen Framework zu verbessern. Experimente werden auf vier Few-Shot-Aktionserkennungsbenchmarks durchgeführt: Kinetics, SSv2, HMDB51 und UCF101. Unsere umfassende Ablationsstudie zeigt die Vorteile der vorgeschlagenen Beiträge. Darüber hinaus erreicht unser Ansatz auf allen vier Benchmarks einen neuen State-of-the-Art. Auf dem anspruchsvollen SSv2-Benchmark erzielt unser Ansatz im Vergleich zur besten existierenden Methode in der Literatur eine absolute Steigerung der Klassifizierungsgenauigkeit um $3,5\%$. Unsere Code-Implementierung und Modelle sind unter https://github.com/Anirudh257/strm verfügbar.

Modellierung räumlich-zeitlicher Relationen für Few-shot-Aktionserkennung | Neueste Forschungsarbeiten | HyperAI