Selbstüberwachtes Video-Repräsentationslernen mit Cross-Stream-Prototypenkontrastierung

Instanzbasierte kontrastive Lernverfahren, die auf Datenverstärkung und einer kontrastiven Verlustfunktion basieren, haben im Bereich des visuellen Repräsentationslernens großen Erfolg gefeiert. Sie sind jedoch nicht geeignet, um die reiche dynamische Struktur von Videos auszunutzen, da Operationen auf vielen verstärkten Instanzen durchgeführt werden. In dieser Arbeit schlagen wir „Video Cross-Stream Prototypical Contrasting“ vor, eine neuartige Methode, die konsistente Prototypzuordnungen sowohl aus RGB- als auch aus Optischer-Fluss-Sichten vorhersagt und auf Mengen von Stichproben operiert. Insbesondere wechseln wir den Optimierungsprozess ab; während der Optimierung eines der Streams werden alle Sichten einem Satz von Stream-Prototypvektoren zugeordnet. Jede Zuordnung wird mit allen Sichten vorhergesagt, außer derjenigen, die zur Vorhersage passt, was die Repräsentationen näher an ihre zugewiesenen Prototypen bringt. Als Ergebnis werden effizientere Video-Einbettungen mit eingebetteten Bewegungsinformationen gelernt, ohne dass während der Inferenz explizit eine optische Flussberechnung erforderlich ist. Wir erzielen Stand-of-the-Art-Ergebnisse bei der nächsten-Nachbarn-Videoretrieval und Aktionserkennung, wobei wir den bisherigen Bestwert um +3,2 % auf UCF101 unter Verwendung des S3D-Rückgrats (90,5 % Top-1-Akkuratz) übertreffen und um +7,2 % auf UCF101 sowie um +15,1 % auf HMDB51 unter Verwendung des R(2+1)D-Rückgrats übertrumpfen.