HyperAIHyperAI
vor 17 Tagen

VideoMoCo: Kontrastive Lernung von Video-Repräsentationen mit zeitlich adversarialen Beispielen

Tian Pan, Yibing Song, Tianyu Yang, Wenhao Jiang, Wei Liu
VideoMoCo: Kontrastive Lernung von Video-Repräsentationen mit zeitlich adversarialen Beispielen
Abstract

MoCo ist effektiv für das unüberwachte Lernen von Bildrepräsentationen. In diesem Artikel stellen wir VideoMoCo für das unüberwachte Lernen von Videorepräsentationen vor. Gegeben eine Videosequenz als Eingabeprobe verbessern wir die zeitlichen Merkmalsrepräsentationen von MoCo aus zwei Perspektiven. Erstens führen wir einen Generator ein, der mehrere Frames dieser Probe zeitlich ausblenden lässt. Der Diskriminator wird dann darauf trainiert, unabhängig von den ausgelassenen Frames ähnliche Merkmalsrepräsentationen zu erzeugen. Durch adaptives Auslassen verschiedener Frames während der Trainingsiterationen des adversarialen Lernens erweitern wir die Eingabeprobe, um einen zeitlich robusten Encoder zu trainieren. Zweitens verwenden wir zeitliche Abklingfunktionen, um die Abnahme der Relevanz der Schlüssel im Speicher-Queue bei der Berechnung der kontrastiven Verlustfunktion zu modellieren. Da der Momentum-Encoder nach dem Enqueuen der Schlüssel aktualisiert wird, nimmt die Repräsentationsfähigkeit dieser Schlüssel ab, wenn wir die aktuelle Eingabeprobe zur kontrastiven Lernung nutzen. Diese Degradation wird durch zeitliche Abklingfunktionen berücksichtigt, um der Eingabeprobe eine stärkere Aufmerksamkeit auf jüngere Schlüssel in der Queue zu gewähren. Dadurch adaptieren wir MoCo, um Videorepräsentationen zu lernen, ohne vorab empirisch vorgegebene Vorabaufgaben (pretext tasks) entwerfen zu müssen. Durch die Stärkung der zeitlichen Robustheit des Encoders und die Modellierung der zeitlichen Abklingfunktion der Schlüssel verbessert unsere VideoMoCo MoCo auf der Basis kontrastiven Lernens zeitlich. Experimente auf Benchmark-Datensätzen wie UCF101 und HMDB51 zeigen, dass VideoMoCo eine state-of-the-art-Methode für das Lernen von Videorepräsentationen darstellt.