HyperAIHyperAI

Command Palette

Search for a command to run...

End-to-End Lernen der Bewegungsdarstellung für die Videobearbeitung

Lijie Fan Wenbing Huang Chuang Gan Stefano Ermon Boqing Gong Junzhou Huang

Zusammenfassung

Trotz des jüngsten Erfolgs von end-to-end gelernten Repräsentationen werden manuell gestaltete optische Flussmerkmale weiterhin häufig in Videoanalyseaufgaben eingesetzt. Um diese Lücke zu schließen, schlagen wir TVNet vor, ein neues, end-to-end trainierbares neuronales Netzwerk, das optik-flussähnliche Merkmale aus Daten lernt. TVNet umfasst einen spezifischen optischen Flusslöser, die TV-L1-Methode, und wird durch das Entfalten seiner Optimierungsschritte als neurale Schichten initialisiert. Daher kann TVNet direkt verwendet werden, ohne dass zusätzliches Lernen erforderlich ist. Darüber hinaus kann es auf natürliche Weise mit anderen aufgabenspezifischen Netzen verkettet werden, um eine end-to-end Architektur zu bilden. Dies macht unsere Methode effizienter als aktuelle mehrstufige Ansätze, da sie die Notwendigkeit vermeidet, Merkmale vorab zu berechnen und auf der Festplatte zu speichern. Schließlich können die Parameter von TVNet durch end-to-end Training weiter feinjustiert werden. Dies ermöglicht es TVNet, reichere und aufgabenspezifischere Muster über den exakten optischen Fluss hinaus zu lernen. Ausführliche Experimente an zwei Benchmarks für Aktionserkennung bestätigen die Effektivität des vorgeschlagenen Ansatzes. Unser TVNet erreicht höhere Genauigkeiten als alle verglichenen Methoden und ist gleichzeitig in Bezug auf die Merkmalsextraktionszeit mit dem schnellsten Vergleichsverfahren wettbewerbsfähig.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
End-to-End Lernen der Bewegungsdarstellung für die Videobearbeitung | Paper | HyperAI