HyperAIHyperAI
vor 16 Tagen

Elaborative Rehearsal für Zero-shot Action Recognition

Shizhe Chen, Dong Huang
Elaborative Rehearsal für Zero-shot Action Recognition
Abstract

Die wachsende Anzahl an Aktionsklassen stellt eine neue Herausforderung für die Videoverstehensforschung dar und hat die Zero-Shot Action Recognition (ZSAR) zu einer vielversprechenden Forschungsrichtung gemacht. Das ZSAR-Task zielt darauf ab, Zielaktionen (unbeobachtete Aktionen) ohne Trainingsbeispiele zu erkennen, indem semantische Darstellungen genutzt werden, um eine Brücke zwischen bekannten und unbekannten Aktionen zu schaffen. Aufgrund der Komplexität und Vielfalt von Aktionen bleibt es jedoch herausfordernd, Aktionen semantisch präzise darzustellen und Wissen aus bekannten Daten auf unbekannte Aktionen zu übertragen. In dieser Arbeit präsentieren wir ein ER-verbessertes ZSAR-Modell, das sich von einer effektiven menschlichen Gedächtnistechnik namens elaboratives Wiederholen (Elaborative Rehearsal, ER) inspirieren lässt. Diese Technik beinhaltet die Vertiefung eines neuen Konzepts und dessen Verknüpfung mit bereits bekannten Konzepten. Konkret erweitern wir jede Aktionsklasse durch eine elaborative Beschreibung (Elaborative Description, ED) in Form eines Satzes, die diskriminativer ist als ein einfacher Klassenname und weniger aufwendig als manuell definierte Attribute. Neben der direkten Ausrichtung der Klassensemantik mit Videos integrieren wir Objekte aus dem Video als elaborative Konzepte (Elaborative Concepts, EC), um die semantische Repräsentation von Videos zu verbessern und die Generalisierung von bekannten zu unbekannten Aktionen zu fördern. Unser ER-verbessertes ZSAR-Modell erreicht state-of-the-art Ergebnisse auf drei etablierten Benchmarks. Darüber hinaus schlagen wir ein neues ZSAR-Evaluierungsprotokoll auf dem Kinetics-Datensatz vor, um die Einschränkungen bestehender Benchmarks zu überwinden, und demonstrieren erstmals, dass die ZSAR-Leistung in diesem realistischeren Setting vergleichbar mit Few-Shot-Lernbaselines ist. Die Codes und die gesammelten EDs werden unter https://github.com/DeLightCMU/ElaborativeRehearsal veröffentlicht.