Delta-Distillation für effiziente Videoverarbeitung

Diese Arbeit zielt darauf ab, die Verarbeitung von Videostreams – beispielsweise Objekterkennung und semantische Segmentierung – zu beschleunigen, indem sie die zeitlichen Redundanzen zwischen Videobildern ausnutzt. Anstatt Merkmale mittels Bewegungsausrichtung, wie beispielsweise optischem Fluss, zu propagieren und zu verformen, schlagen wir ein neuartiges Wissens-Distillationsschema vor, das als Delta-Distillation bezeichnet wird. In unserem Ansatz lernt der Schüler die zeitlichen Veränderungen der Zwischenmerkmale des Lehrers zu erfassen. Wir zeigen, dass diese zeitlichen Variationen aufgrund der innerhalb der Videobilder bestehenden zeitlichen Redundanzen effektiv distilliert werden können. Während der Inferenz arbeiten Lehrer und Schüler kooperativ zur Vorhersage: Der Lehrer liefert zunächst Darstellungen, die ausschließlich auf den Schlüsselbildern extrahiert wurden, während der Schüler iterativ Deltas für die nachfolgenden Frames schätzt und anwendet. Zudem betrachten wir verschiedene Gestaltungsentscheidungen zur Erkennung optimaler Schülerarchitekturen, einschließlich einer end-to-end lernbaren Architektursuche. Anhand umfangreicher Experimente an einer Vielzahl von Architekturen, einschließlich der effizientesten, zeigen wir, dass die Delta-Distillation eine neue State-of-the-Art-Leistung im Hinblick auf das Genauigkeits-Geschwindigkeits-Verhältnis für semantische Segmentierung und Objekterkennung in Videos erreicht. Schließlich zeigen wir, dass als Nebenprodukt die Delta-Distillation die zeitliche Konsistenz des Lehrmodells verbessert.