HyperAIHyperAI
vor 17 Tagen

Adaptive Intermediate Representations für die Videoverstehens

Juhana Kangaspunta, AJ Piergiovanni, Rico Jonschkowski, Michael Ryoo, Anelia Angelova
Adaptive Intermediate Representations für die Videoverstehens
Abstract

Eine gängige Strategie für die Videoverstehensaufgabe besteht darin, räumliche und Bewegungsinformationen durch die Fusion von aus RGB-Bildern und optischem Fluss abgeleiteten Merkmalen zu integrieren. In dieser Arbeit stellen wir eine neue Methode vor, bei der semantische Segmentierung als Zwischendarstellung für das Videoverstehen genutzt wird und dabei keine zusätzlichen Beschriftungen erfordert. Zweitens schlagen wir einen allgemeinen Rahmen vor, der die Zwischendarstellungen (optischer Fluss und semantische Segmentierung) gemeinsam mit der endgültigen Aufgabe des Videoverstehens lernt und die Anpassung dieser Darstellungen an das Endziel ermöglicht. Trotz der Verwendung von Zwischendarstellungen innerhalb des Netzwerks wird während der Inferenz kein zusätzlicher Datensatz außer den RGB-Sequenzen benötigt, was eine effiziente Erkennung mit einem einzigen Netzwerk ermöglicht. Schließlich präsentieren wir eine Methode zur Suche nach der optimalen Lernkonfiguration durch evolutionäre Suche nach der besten Verstärkung der Verlustfunktionen. Auf diese Weise erzielen wir leistungsfähigere visuelle Darstellungen für Videos, die zu Verbesserungen gegenüber dem Stand der Technik führen.