HyperAIHyperAI

Command Palette

Search for a command to run...

Selbstüberwachtes räumlich-zeitliches Repräsentationslernen für Videos durch Vorhersage von Bewegungs- und Erscheinungsstatistiken

Jiangliu Wang extsuperscript1 extdagger Jianbo Jiao extsuperscript2 extdagger Linchao Bao extsuperscript3 extasteriskcentered Shengfeng He extsuperscript4 Yunhui Liu extsuperscript1 Wei Liu extsuperscript3 extasteriskcentered

Zusammenfassung

Wir behandeln das Problem des Lernens von Video-Darstellungen ohne menschliche Annotationen. Während frühere Ansätze dieses Problem durch die Entwicklung neuer selbstüberwachter Aufgaben unter Verwendung von Videodaten angegangen sind, beschränken sich die gelernten Merkmale auf eine Bild-für-Bild-Basis, was für viele Videoanalyseaufgaben, bei denen räumlich-zeitliche Merkmale vorherrschen, nicht anwendbar ist. In dieser Arbeit schlagen wir einen neuen selbstüberwachten Ansatz vor, um räumlich-zeitliche Merkmale für Video-Darstellungen zu lernen. Inspiriert durch den Erfolg der Two-Stream-Ansätze in der Videoklassifizierung, schlagen wir vor, visuelle Merkmale durch die Regression von Bewegungs- und Erscheinungsstatistiken entlang der räumlichen und zeitlichen Dimensionen zu lernen, wobei nur die Eingabevideodaten verwendet werden. Speziell extrahieren wir statistische Konzepte (Bereiche mit schneller Bewegung und die entsprechende dominante Richtung, räumlich-zeitliche Farbvielfalt, dominante Farbe usw.) aus einfachen Mustern sowohl im räumlichen als auch im zeitlichen Bereich. Im Gegensatz zu früheren Rätselaufgaben, die sogar für Menschen schwierig zu lösen sind, ist der vorgeschlagene Ansatz konsistent mit den inherenten visuellen Gewohnheiten des Menschen und daher leichter zu bearbeiten. Wir führen umfangreiche Experimente mit C3D durch, um die Effektivität unseres vorgeschlagenen Ansatzes zu überprüfen. Die Experimente zeigen, dass unser Ansatz die Leistungsfähigkeit von C3D bei Anwendung auf Videoklassifizierungsaufgaben erheblich verbessern kann. Der Quellcode ist unter https://github.com/laura-wang/video_repres_mas verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Selbstüberwachtes räumlich-zeitliches Repräsentationslernen für Videos durch Vorhersage von Bewegungs- und Erscheinungsstatistiken | Paper | HyperAI