Selbstüberwachtes Lernen visueller Invarianzen, induziert durch Videos

Wir schlagen einen allgemeinen Rahmen für das selbstüberwachte Lernen übertragbarer visueller Darstellungen basierend auf videoinduzierten visuellen Invarianzen (Video-Induced Visual Invariances, VIVI) vor. Wir berücksichtigen die implizite Hierarchie, die in Videos vorliegt, und nutzen (i) frame-weise Invarianzen (z. B. Stabilität gegenüber Farb- und Kontraststörungen), (ii) shot-/clip-weise Invarianzen (z. B. Robustheit gegenüber Änderungen der Objektorientierung und Beleuchtungsbedingungen) sowie (iii) video-weise Invarianzen (semantische Beziehungen zwischen Szenen über verschiedene Shots/Clips hinweg), um eine umfassende selbstüberwachte Verlustfunktion zu definieren. Durch das Training von Modellen mit unterschiedlichen Varianten des vorgeschlagenen Rahmens auf Videos aus dem YouTube-8M-Datensatz (YT8M) erreichen wir state-of-the-art Ergebnisse beim selbstüberwachten Transferlernen auf den 19 unterschiedlichen Nachaufgaben des Visual Task Adaptation Benchmark (VTAB), wobei pro Aufgabe lediglich 1000 Labels verwendet werden. Anschließend zeigen wir, wie unsere Modelle gemeinsam mit beschrifteten Bildern ko-trainiert werden können, wodurch ein mit ImageNet vortrainiertes ResNet-50 um 0,8 Punkte übertrifft, wenn nur ein Zehntel der beschrifteten Bilder genutzt werden, sowie das bisher beste überwachte Modell um 3,7 Punkte bei Verwendung des gesamten ImageNet-Datensatzes.