HyperAIHyperAI

Command Palette

Search for a command to run...

Temporale deformierbare Residueller Netzwerke für die Aktionssegmentierung in Videos

Peng Lei Sinisa Todorovic

Zusammenfassung

Diese Arbeit befasst sich mit der zeitlichen Segmentierung menschlicher Aktionen in Videos. Wir stellen ein neues Modell vor – das temporale deformierbare Residualnetzwerk (TDRN) –, das darauf abzielt, Videointervalle auf mehreren zeitlichen Skalen zu analysieren, um Videobilder zu beschriften. Unser TDRN berechnet zwei parallele zeitliche Ströme: i) einen Residual-Stream, der Videoinformationen in voller zeitlicher Auflösung analysiert, und ii) einen Pooling-/Unpooling-Stream, der langreichweitige Videoinformationen auf unterschiedlichen Skalen erfasst. Der erste Stream unterstützt die lokale, fein-skalierte Aktionssegmentierung, während der zweite Stream multiskalaren Kontext nutzt, um die Genauigkeit der Frame-Klassifikation zu verbessern. Beide Ströme werden durch eine Reihe von temporalen Residual-Modulen mit deformierbaren Konvolutionen berechnet und auf der vollen Videolänge durch zeitliche Residuen gefasst. Unsere Evaluation an den Datensätzen University of Dundee 50 Salads, Georgia Tech Egocentric Activities sowie JHU-ISI Gesture and Skill Assessment Working Set zeigt, dass das TDRN die derzeitigen State-of-the-Art-Methoden in Bezug auf die Frame-Genauigkeit der Segmentierung, den segmentalen Edit-Score und den segmentalen Overlap-F1-Score übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Temporale deformierbare Residueller Netzwerke für die Aktionssegmentierung in Videos | Paper | HyperAI