HyperAIHyperAI

Command Palette

Search for a command to run...

MotionSqueeze: Neuronale Lernung von Bewegungsmerkmalen für das Videoverständnis

Heeseung Kwon Manjin Kim Suha Kwak Minsu Cho

Zusammenfassung

Bewegung spielt eine entscheidende Rolle bei der Verständnis von Videos, und die meisten modernsten neuronalen Modelle für die Video-Klassifikation integrieren Bewegungsinformationen typischerweise mithilfe von optischen Flüssen, die mit einer separaten, vorgefertigten Methode extrahiert werden. Da frame-basierte optische Flüsse eine hohe Rechenlast erfordern, bleibt die Einbeziehung von Bewegungsinformationen ein zentraler Rechenaufwandshindernis für das Video-Verständnis. In dieser Arbeit ersetzen wir die externe und rechenintensive Berechnung optischer Flüsse durch eine interne und leichtgewichtige Lernprozessierung von Bewegungsmerkmalen. Wir stellen ein lernbares neuronales Modul namens MotionSqueeze vor, das effizient Bewegungsmerkmale extrahiert. Dieses Modul kann beliebig in der Mitte eines neuronalen Netzwerks eingefügt werden und lernt, Korrespondenzen zwischen Bildern herzustellen sowie diese in Bewegungsmerkmale zu transformieren, die direkt an die nachfolgende Schicht zur Verbesserung der Vorhersage weitergeleitet werden können. Wir zeigen, dass die vorgeschlagene Methode auf vier etablierten Benchmarks für Aktionserkennung eine signifikante Verbesserung erzielt, wobei nur ein geringer zusätzlicher Rechenaufwand entsteht, und die bisher beste Leistung auf den Datensätzen Something-Something-V1 und V2 erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp