HyperAIHyperAI
vor 2 Monaten

ECO: Effizientes Faltungsnetzwerk für die Online-Videobearbeitung

Mohammadreza Zolfaghari; Kamaljeet Singh; Thomas Brox
ECO: Effizientes Faltungsnetzwerk für die Online-Videobearbeitung
Abstract

Der aktuelle Stand der Technik im Bereich Videoverstehen leidet an zwei Problemen: (1) Der Großteil des Schließens wird lokal innerhalb des Videos durchgeführt, wodurch wichtige Beziehungen innerhalb von Aktionen, die mehrere Sekunden umfassen, übersehen werden. (2) Obwohl es lokale Methoden mit schneller pro-Frames-Verarbeitung gibt, ist die Verarbeitung des gesamten Videos nicht effizient und behindert eine schnelle Videorecherche oder Online-Klassifizierung langfristiger Aktivitäten. In dieser Arbeit stellen wir eine Netzwerkarchitektur vor, die langfristige Inhalte berücksichtigt und gleichzeitig eine schnelle pro-Video-Verarbeitung ermöglicht. Die Architektur basiert auf dem Zusammenführen langfristiger Inhalte bereits im Netzwerk anstatt in einer nachgeschalteten Fusion. Zusammen mit einer Abtaststrategie, die nutzt, dass benachbarte Frames weitgehend redundant sind, liefert dies hochwertige Aktionserkennung und Videobeschreibung mit bis zu 230 Videos pro Sekunde, wobei jedes Video aus einigen hundert Frames bestehen kann. Der Ansatz erreicht wettbewerbsfähige Leistungen in allen Datensätzen und ist dabei 10- bis 80-mal schneller als die derzeit besten Methoden.