Spatio-temporale kontrastbasierte Lernung von Video-Darstellungen

Wir präsentieren eine selbstüberwachte Methode des kontrastiven Video-Repräsentationslernens (Contrastive Video Representation Learning, CVRL), um räumlich-zeitliche visuelle Repräsentationen aus unbeschrifteten Videos zu erlernen. Unsere Repräsentationen werden unter Verwendung eines kontrastiven Verlustes gelernt, bei dem zwei erweiterte Clips aus demselben kurzen Video im Einbettungsraum zusammengezogen werden, während Clips aus verschiedenen Videos voneinander abgestoßen werden. Wir untersuchen, welche Faktoren für gute Datenverstärkungen (Data Augmentations) im Kontext des selbstüberwachten Lernens von Videos entscheidend sind und stellen fest, dass sowohl räumliche als auch zeitliche Informationen von zentraler Bedeutung sind. Wir entwerfen sorgfältig Datenverstärkungen, die räumliche und zeitliche Hinweise berücksichtigen. Konkret schlagen wir eine zeitlich konsistente räumliche Verstärkungsmethode vor, die starke räumliche Verstärkungen auf jedes Frame des Videos anwendet, während sie die zeitliche Konsistenz über alle Frames beibehält. Zudem schlagen wir eine auf Stichprobenziehung basierende zeitliche Verstärkungsmethode vor, um eine übermäßige Invarianzzwang auf Clips zu vermeiden, die in der Zeit weit voneinander entfernt sind. Auf Kinetics-600 erreicht ein linearer Klassifikator, der auf den durch CVRL gelernten Repräsentationen trainiert wurde, mit einem 3D-ResNet-50 (R3D-50)-Backbone eine Top-1-Akkuratesse von 70,4%. Dies übertreffen wir das ImageNet-supervisierte Vortrainieren um 15,7% und das SimCLR-unsupervisierte Vortrainieren um 18,8%, wobei jeweils der gleiche aufgeblasene R3D-50 verwendet wird. Die Leistung von CVRL kann durch den Einsatz eines größeren R3D-152 (2x Filter) Backbones weiter verbessert werden und erreicht dann 72,9%, was den Abstand zwischen unsupervisem und supervisem Video-Repräsentationslernen erheblich verringert. Unser Code und unsere Modelle werden unter https://github.com/tensorflow/models/tree/master/official/ zur Verfügung gestellt.