Maskierte Bewegungscodierung für das selbstüberwachte Lernen von Videodarstellungen

Das Lernen diskriminativer Video-Darstellungen aus unbeschrifteten Videos ist eine herausfordernde, aber entscheidende Aufgabe für die Videanalyse. Die neuesten Versuche zielen darauf ab, ein Darstellungsmodell durch die Vorhersage des Erscheinungsinhalts in maskierten Bereichen zu erlernen. Allerdings reicht das einfache Maskieren und Wiederherstellen von Erscheinungsinhalten möglicherweise nicht aus, um zeitliche Hinweise zu modellieren, da diese Inhalte leicht aus einem einzelnen Frame rekonstruiert werden können. Um diese Einschränkung zu überwinden, präsentieren wir Masked Motion Encoding (MME), ein neues Paradigma zur Vortrainierung, das sowohl Erscheinungs- als auch Bewegungsinformationen rekonstruiert, um zeitliche Hinweise zu erforschen.In MME konzentrieren wir uns auf die Bewältigung zweier kritischer Herausforderungen, um die Darstellungslistung zu verbessern: 1) Wie kann der mögliche langfristige Bewegungsverlauf über mehrere Frames hinweg gut dargestellt werden? und 2) Wie können feingranulare zeitliche Hinweise aus dünn besetzten Videos gewonnen werden? Inspiriert davon, dass Menschen eine Aktion durch das Verfolgen von Positionswandel und Formänderungen von Objekten erkennen können, schlagen wir vor, eine Bewegungsbahn in den maskierten Bereichen zu rekonstruieren, die diese beiden Arten von Änderungen darstellt. Zudem erzwingen wir bei der Verarbeitung dünn besetzter Videoeingaben, dass das Modell dichte Bewegungsbahnen in räumlicher und zeitlicher Dimension rekonstruiert. Mit unserer MME-Paradigma vortrainiert, ist das Modell in der Lage, langfristige und feingranulare Bewegungsdetails vorherzusagen. Der Quellcode ist unter https://github.com/XinyuSun/MME verfügbar.