vor 17 Tagen

MotionSqueeze: Neuronale Lernung von Bewegungsmerkmalen für das Videoverständnis

Heeseung Kwon, Manjin Kim, Suha Kwak, Minsu Cho

Abstract

Bewegung spielt eine entscheidende Rolle bei der Verständnis von Videos, und die meisten modernsten neuronalen Modelle für die Video-Klassifikation integrieren Bewegungsinformationen typischerweise mithilfe von optischen Flüssen, die mit einer separaten, vorgefertigten Methode extrahiert werden. Da frame-basierte optische Flüsse eine hohe Rechenlast erfordern, bleibt die Einbeziehung von Bewegungsinformationen ein zentraler Rechenaufwandshindernis für das Video-Verständnis. In dieser Arbeit ersetzen wir die externe und rechenintensive Berechnung optischer Flüsse durch eine interne und leichtgewichtige Lernprozessierung von Bewegungsmerkmalen. Wir stellen ein lernbares neuronales Modul namens MotionSqueeze vor, das effizient Bewegungsmerkmale extrahiert. Dieses Modul kann beliebig in der Mitte eines neuronalen Netzwerks eingefügt werden und lernt, Korrespondenzen zwischen Bildern herzustellen sowie diese in Bewegungsmerkmale zu transformieren, die direkt an die nachfolgende Schicht zur Verbesserung der Vorhersage weitergeleitet werden können. Wir zeigen, dass die vorgeschlagene Methode auf vier etablierten Benchmarks für Aktionserkennung eine signifikante Verbesserung erzielt, wobei nur ein geringer zusätzlicher Rechenaufwand entsteht, und die bisher beste Leistung auf den Datensätzen Something-Something-V1 und V2 erreicht.