HyperAIHyperAI
vor 2 Monaten

Selbstüberwachtes räumlich-zeitliches Repräsentationslernen für Videos durch Vorhersage von Bewegungs- und Erscheinungsstatistiken

Jiangliu Wang; Jianbo Jiao; Linchao Bao; Shengfeng He; Yunhui Liu; Wei Liu
Selbstüberwachtes räumlich-zeitliches Repräsentationslernen für Videos durch Vorhersage von Bewegungs- und Erscheinungsstatistiken
Abstract

Wir behandeln das Problem des Lernens von Video-Darstellungen ohne menschliche Annotationen. Während frühere Ansätze dieses Problem durch die Entwicklung neuer selbstüberwachter Aufgaben unter Verwendung von Videodaten angegangen sind, beschränken sich die gelernten Merkmale auf eine Bild-für-Bild-Basis, was für viele Videoanalyseaufgaben, bei denen räumlich-zeitliche Merkmale vorherrschen, nicht anwendbar ist. In dieser Arbeit schlagen wir einen neuen selbstüberwachten Ansatz vor, um räumlich-zeitliche Merkmale für Video-Darstellungen zu lernen. Inspiriert durch den Erfolg der Two-Stream-Ansätze in der Videoklassifizierung, schlagen wir vor, visuelle Merkmale durch die Regression von Bewegungs- und Erscheinungsstatistiken entlang der räumlichen und zeitlichen Dimensionen zu lernen, wobei nur die Eingabevideodaten verwendet werden. Speziell extrahieren wir statistische Konzepte (Bereiche mit schneller Bewegung und die entsprechende dominante Richtung, räumlich-zeitliche Farbvielfalt, dominante Farbe usw.) aus einfachen Mustern sowohl im räumlichen als auch im zeitlichen Bereich. Im Gegensatz zu früheren Rätselaufgaben, die sogar für Menschen schwierig zu lösen sind, ist der vorgeschlagene Ansatz konsistent mit den inherenten visuellen Gewohnheiten des Menschen und daher leichter zu bearbeiten. Wir führen umfangreiche Experimente mit C3D durch, um die Effektivität unseres vorgeschlagenen Ansatzes zu überprüfen. Die Experimente zeigen, dass unser Ansatz die Leistungsfähigkeit von C3D bei Anwendung auf Videoklassifizierungsaufgaben erheblich verbessern kann. Der Quellcode ist unter https://github.com/laura-wang/video_repres_mas verfügbar.

Selbstüberwachtes räumlich-zeitliches Repräsentationslernen für Videos durch Vorhersage von Bewegungs- und Erscheinungsstatistiken | Neueste Forschungsarbeiten | HyperAI