HyperAIHyperAI
vor 2 Monaten

End-to-End Lernen der Bewegungsdarstellung für die Videobearbeitung

Lijie Fan; Wenbing Huang; Chuang Gan; Stefano Ermon; Boqing Gong; Junzhou Huang
End-to-End Lernen der Bewegungsdarstellung für die Videobearbeitung
Abstract

Trotz des jüngsten Erfolgs von end-to-end gelernten Repräsentationen werden manuell gestaltete optische Flussmerkmale weiterhin häufig in Videoanalyseaufgaben eingesetzt. Um diese Lücke zu schließen, schlagen wir TVNet vor, ein neues, end-to-end trainierbares neuronales Netzwerk, das optik-flussähnliche Merkmale aus Daten lernt. TVNet umfasst einen spezifischen optischen Flusslöser, die TV-L1-Methode, und wird durch das Entfalten seiner Optimierungsschritte als neurale Schichten initialisiert. Daher kann TVNet direkt verwendet werden, ohne dass zusätzliches Lernen erforderlich ist. Darüber hinaus kann es auf natürliche Weise mit anderen aufgabenspezifischen Netzen verkettet werden, um eine end-to-end Architektur zu bilden. Dies macht unsere Methode effizienter als aktuelle mehrstufige Ansätze, da sie die Notwendigkeit vermeidet, Merkmale vorab zu berechnen und auf der Festplatte zu speichern. Schließlich können die Parameter von TVNet durch end-to-end Training weiter feinjustiert werden. Dies ermöglicht es TVNet, reichere und aufgabenspezifischere Muster über den exakten optischen Fluss hinaus zu lernen. Ausführliche Experimente an zwei Benchmarks für Aktionserkennung bestätigen die Effektivität des vorgeschlagenen Ansatzes. Unser TVNet erreicht höhere Genauigkeiten als alle verglichenen Methoden und ist gleichzeitig in Bezug auf die Merkmalsextraktionszeit mit dem schnellsten Vergleichsverfahren wettbewerbsfähig.