HyperAIHyperAI

Command Palette

Search for a command to run...

Selbstüberwachtes Lernen visueller Invarianzen, induziert durch Videos

Michael Tschannen Josip Djolonga Marvin Ritter Aravindh Mahendran Xiaohua Zhai Neil Houlsby Sylvain Gelly Mario Lucic

Zusammenfassung

Wir schlagen einen allgemeinen Rahmen für das selbstüberwachte Lernen übertragbarer visueller Darstellungen basierend auf videoinduzierten visuellen Invarianzen (Video-Induced Visual Invariances, VIVI) vor. Wir berücksichtigen die implizite Hierarchie, die in Videos vorliegt, und nutzen (i) frame-weise Invarianzen (z. B. Stabilität gegenüber Farb- und Kontraststörungen), (ii) shot-/clip-weise Invarianzen (z. B. Robustheit gegenüber Änderungen der Objektorientierung und Beleuchtungsbedingungen) sowie (iii) video-weise Invarianzen (semantische Beziehungen zwischen Szenen über verschiedene Shots/Clips hinweg), um eine umfassende selbstüberwachte Verlustfunktion zu definieren. Durch das Training von Modellen mit unterschiedlichen Varianten des vorgeschlagenen Rahmens auf Videos aus dem YouTube-8M-Datensatz (YT8M) erreichen wir state-of-the-art Ergebnisse beim selbstüberwachten Transferlernen auf den 19 unterschiedlichen Nachaufgaben des Visual Task Adaptation Benchmark (VTAB), wobei pro Aufgabe lediglich 1000 Labels verwendet werden. Anschließend zeigen wir, wie unsere Modelle gemeinsam mit beschrifteten Bildern ko-trainiert werden können, wodurch ein mit ImageNet vortrainiertes ResNet-50 um 0,8 Punkte übertrifft, wenn nur ein Zehntel der beschrifteten Bilder genutzt werden, sowie das bisher beste überwachte Modell um 3,7 Punkte bei Verwendung des gesamten ImageNet-Datensatzes.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Selbstüberwachtes Lernen visueller Invarianzen, induziert durch Videos | Paper | HyperAI