HyperAIHyperAI
vor 2 Monaten

Optimierung eines Low-Fidelity-Video-Encoders für die zeitliche Aktionslokalisierung

{Brais Martinez, Bernard Ghanem, Xiatian Zhu, Juan Manuel Perez Rua, Mengmeng Xu}
Optimierung eines Low-Fidelity-Video-Encoders für die zeitliche Aktionslokalisierung
Abstract

Die meisten bestehenden Ansätze zur zeitlichen Aktionslokalisierung (Temporal Action Localization, TAL) basieren auf einem Transfer-Learning-Pipeline: Zunächst wird ein Videocodierer auf einer großen Datensammlung für Aktionsklassifikation (sogenannter Quelldomäne) optimiert, danach wird der Codierer fixiert und ein TAL-Head auf der Datensammlung zur Aktionslokalisierung (sogenannte Zieldomäne) trainiert. Dies führt zu einem Aufgabenunterschied beim Videocodierer – er wurde für die Aktionsklassifikation trainiert, wird aber für die TAL eingesetzt. Intuitiv stellt die gemeinsame Optimierung von Videocodierer und TAL-Head eine starke Baseline-Lösung für dieses Problem dar. Aufgrund der erheblichen Rechenkosten bei der Verarbeitung langer, ungeschnittener Videos ist diese Vorgehensweise jedoch für TAL unter Berücksichtigung der GPU-Speicherbeschränkungen nicht praktikabel. In diesem Paper lösen wir diese Herausforderung durch die Einführung einer neuen Methode zur Optimierung eines niedrigfrequenten (Low-fidelity, LoFi) Videocodierers. Anstatt stets die volle Trainingskonfiguration im TAL-Lernprozess zu verwenden, schlagen wir vor, die Mini-Batch-Komposition hinsichtlich der zeitlichen, räumlichen oder spatio-temporalen Auflösung zu reduzieren, sodass die gemeinsame Optimierung von Videocodierer und TAL-Head unter denselben Speicherbedingungen eines mittleren Hardwarebudgets möglich wird. Entscheidend ist, dass dies die Rückpropagation von Gradienten durch den Videocodierer unter der Bedingung einer TAL-Supervisionsverlustfunktion ermöglicht und somit das Aufgabenunterschiedsproblem effektiv löst sowie aussagekräftigere Merkmalsrepräsentationen liefert. Ausführliche Experimente zeigen, dass der vorgeschlagene LoFi-Optimierungsansatz die Leistung bestehender TAL-Methoden erheblich steigern kann. Ermutigend ist, dass selbst mit einem leichten Videocodierer basierend auf ResNet18 in einem einzigen RGB-Stream unsere Methode zweistrahlige (RGB + optische Fluss) Ansätze mit ResNet50 häufig mit einer deutlichen Lücke übertrifft.