HyperAIHyperAI

Command Palette

Search for a command to run...

Modellierung räumlich-zeitlicher Relationen für Few-shot-Aktionserkennung

Anirudh Thatipelli Sanath Narayan Salman Khan Rao Muhammad Anwer Fahad Shahbaz Khan Bernard Ghanem

Zusammenfassung

Wir stellen einen neuen Few-Shot-Aktionserkennungsansatz, STRM, vor, der die klassenspezifische Merkmalsunterscheidbarkeit verbessert und gleichzeitig höhere Ordnung zeitlicher Repräsentationen lernt. Der Schwerpunkt unseres Ansatzes liegt in einem neuartigen spatio-temporalen Verstärkungsmodul, das räumliche und zeitliche Kontexte durch spezialisierte Untermodule zur lokalen Patch-Ebene und globalen Frame-Ebene integriert. Die lokale Patch-Ebene erfasst die auf Erscheinung basierenden Merkmale von Aktionen, während die globale Frame-Ebene explizit den umfassenden zeitlichen Kontext kodiert und somit relevante Objektmerkmale über die Zeit hinweg erfasst. Die resultierenden spatio-temporal angereicherten Repräsentationen werden anschließend genutzt, um die relationale Übereinstimmung zwischen Abfrage- und Support-Aktionsuntersequenzen zu lernen. Zusätzlich führen wir einen Abfrage-Klasse-Ähnlichkeitsklassifikator auf den patch-ebenen angereicherten Merkmalen ein, um die klassenspezifische Merkmalsunterscheidbarkeit durch die Verstärkung des Merkmalslernens auf verschiedenen Stufen im vorgeschlagenen Framework zu verbessern. Experimente werden auf vier Few-Shot-Aktionserkennungsbenchmarks durchgeführt: Kinetics, SSv2, HMDB51 und UCF101. Unsere umfassende Ablationsstudie zeigt die Vorteile der vorgeschlagenen Beiträge. Darüber hinaus erreicht unser Ansatz auf allen vier Benchmarks einen neuen State-of-the-Art. Auf dem anspruchsvollen SSv2-Benchmark erzielt unser Ansatz im Vergleich zur besten existierenden Methode in der Literatur eine absolute Steigerung der Klassifizierungsgenauigkeit um 3,5%3,5\%3,5%. Unsere Code-Implementierung und Modelle sind unter https://github.com/Anirudh257/strm verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Modellierung räumlich-zeitlicher Relationen für Few-shot-Aktionserkennung | Paper | HyperAI