TSP: Zeitlich empfindliche Voreinstruktur von Videoencodern für Lokalisierungsaufgaben

Aufgrund des großen Speicherbedarfs von unbeschnittenen Videos arbeiten aktuelle, fortschrittliche Methoden zur Video-Lokalisierung auf vorberechneten Video-Clip-Features. Diese Features werden in der Regel aus Video-Codierern extrahiert, die für die Klassifizierung beschnittener Aktionen trainiert wurden, was solche Features nicht zwangsläufig für die zeitliche Lokalisierung geeignet macht. In dieser Arbeit schlagen wir ein neues überwachtes Vortrainingsparadigma für Clip-Features vor, das nicht nur Aktivitäten klassifiziert, sondern auch Hintergrundclips und globale Videoinformation berücksichtigt, um die zeitliche Empfindlichkeit zu verbessern. Ausführliche Experimente zeigen, dass die Verwendung von mit unserem neuen Vortrainingsansatz trainierten Features die Leistung jüngster fortschrittlicher Methoden bei drei Aufgaben erheblich steigert: Zeitliche Aktionenlokalisierung (Temporal Action Localization), Generierung von Aktionenvorschlägen (Action Proposal Generation) und dichtes Video-Kapionieren (Dense Video Captioning). Wir demonstrieren zudem, dass unser Vortrainingsansatz effektiv ist für drei Codiererarchitekturen und zwei Vortrainingsdatensätze. Wir glauben, dass die Video-Feature-Kodierung ein wichtiger Baustein für Lokalisierungsalgorithmen ist und dass die Extraktion zeitlich empfindlicher Features bei der Entwicklung genauer Modelle oberste Priorität haben sollte. Der Code und die vortrainierten Modelle sind auf unserer Projektwebsite verfügbar.