Command Palette
Search for a command to run...
Optimierung eines Low-Fidelity-Video-Encoders für die zeitliche Aktionslokalisierung
Optimierung eines Low-Fidelity-Video-Encoders für die zeitliche Aktionslokalisierung
Brais Martinez Bernard Ghanem Xiatian Zhu Juan Manuel Perez Rua Mengmeng Xu
Zusammenfassung
Die meisten bestehenden Ansätze zur zeitlichen Aktionslokalisierung (Temporal Action Localization, TAL) basieren auf einem Transfer-Learning-Pipeline: Zunächst wird ein Videocodierer auf einer großen Datensammlung für Aktionsklassifikation (sogenannter Quelldomäne) optimiert, danach wird der Codierer fixiert und ein TAL-Head auf der Datensammlung zur Aktionslokalisierung (sogenannte Zieldomäne) trainiert. Dies führt zu einem Aufgabenunterschied beim Videocodierer – er wurde für die Aktionsklassifikation trainiert, wird aber für die TAL eingesetzt. Intuitiv stellt die gemeinsame Optimierung von Videocodierer und TAL-Head eine starke Baseline-Lösung für dieses Problem dar. Aufgrund der erheblichen Rechenkosten bei der Verarbeitung langer, ungeschnittener Videos ist diese Vorgehensweise jedoch für TAL unter Berücksichtigung der GPU-Speicherbeschränkungen nicht praktikabel. In diesem Paper lösen wir diese Herausforderung durch die Einführung einer neuen Methode zur Optimierung eines niedrigfrequenten (Low-fidelity, LoFi) Videocodierers. Anstatt stets die volle Trainingskonfiguration im TAL-Lernprozess zu verwenden, schlagen wir vor, die Mini-Batch-Komposition hinsichtlich der zeitlichen, räumlichen oder spatio-temporalen Auflösung zu reduzieren, sodass die gemeinsame Optimierung von Videocodierer und TAL-Head unter denselben Speicherbedingungen eines mittleren Hardwarebudgets möglich wird. Entscheidend ist, dass dies die Rückpropagation von Gradienten durch den Videocodierer unter der Bedingung einer TAL-Supervisionsverlustfunktion ermöglicht und somit das Aufgabenunterschiedsproblem effektiv löst sowie aussagekräftigere Merkmalsrepräsentationen liefert. Ausführliche Experimente zeigen, dass der vorgeschlagene LoFi-Optimierungsansatz die Leistung bestehender TAL-Methoden erheblich steigern kann. Ermutigend ist, dass selbst mit einem leichten Videocodierer basierend auf ResNet18 in einem einzigen RGB-Stream unsere Methode zweistrahlige (RGB + optische Fluss) Ansätze mit ResNet50 häufig mit einer deutlichen Lücke übertrifft.