HyperAIHyperAI

Command Palette

Search for a command to run...

Maskierte Bewegungscodierung für das selbstüberwachte Lernen von Videodarstellungen

Xinyu Sun extsuperscript1,2*, Peihao Chen extsuperscript1*, Liangwei Chen extsuperscript1 Changhao Li extsuperscript1 Thomas H. Li extsuperscript6 Mingkui Tan extsuperscript1,5† Chuang Gan extsuperscript3,4

Zusammenfassung

Das Lernen diskriminativer Video-Darstellungen aus unbeschrifteten Videos ist eine herausfordernde, aber entscheidende Aufgabe für die Videanalyse. Die neuesten Versuche zielen darauf ab, ein Darstellungsmodell durch die Vorhersage des Erscheinungsinhalts in maskierten Bereichen zu erlernen. Allerdings reicht das einfache Maskieren und Wiederherstellen von Erscheinungsinhalten möglicherweise nicht aus, um zeitliche Hinweise zu modellieren, da diese Inhalte leicht aus einem einzelnen Frame rekonstruiert werden können. Um diese Einschränkung zu überwinden, präsentieren wir Masked Motion Encoding (MME), ein neues Paradigma zur Vortrainierung, das sowohl Erscheinungs- als auch Bewegungsinformationen rekonstruiert, um zeitliche Hinweise zu erforschen.In MME konzentrieren wir uns auf die Bewältigung zweier kritischer Herausforderungen, um die Darstellungslistung zu verbessern: 1) Wie kann der mögliche langfristige Bewegungsverlauf über mehrere Frames hinweg gut dargestellt werden? und 2) Wie können feingranulare zeitliche Hinweise aus dünn besetzten Videos gewonnen werden? Inspiriert davon, dass Menschen eine Aktion durch das Verfolgen von Positionswandel und Formänderungen von Objekten erkennen können, schlagen wir vor, eine Bewegungsbahn in den maskierten Bereichen zu rekonstruieren, die diese beiden Arten von Änderungen darstellt. Zudem erzwingen wir bei der Verarbeitung dünn besetzter Videoeingaben, dass das Modell dichte Bewegungsbahnen in räumlicher und zeitlicher Dimension rekonstruiert. Mit unserer MME-Paradigma vortrainiert, ist das Modell in der Lage, langfristige und feingranulare Bewegungsdetails vorherzusagen. Der Quellcode ist unter https://github.com/XinyuSun/MME verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Maskierte Bewegungscodierung für das selbstüberwachte Lernen von Videodarstellungen | Paper | HyperAI