LiT: Null-Shot-Transfer mit Locked-Image-Text-Anpassung

Dieses Papier stellt Contrastive-Tuning vor, eine einfache Methode, die kontrastives Training zur Anpassung von Bild- und Textmodellen einsetzt, während sie gleichzeitig von deren Vorabtraining profitiert. In unserer empirischen Studie haben wir festgestellt, dass gesperrte vorgefertigte Bildmodelle in Kombination mit entsperrten Textmodellen die besten Ergebnisse liefern. Wir bezeichnen diese Form des Contrastive-Tunings als "Gesperrtes-Bild Tuning" (LiT), welche lediglich einem Textmodell beibringt, aus einem vorgefertigten Bildmodell für neue Aufgaben gute Darstellungen zu extrahieren. Ein LiT-Modell erlangt die Fähigkeit zur Null-Shot-Übertragung auf neue visuelle Aufgaben, wie zum Beispiel Bildklassifizierung oder -retrieval. Das vorgeschlagene LiT ist weit verbreitet anwendbar; es funktioniert zuverlässig mit mehreren Vorabtrainingsmethoden (überwacht und unüberwacht) und über verschiedene Architekturen (ResNet, Visionstransformatoren und MLP-Mixer), indem es drei unterschiedliche Bild-Text-Datensätze verwendet. Mit dem transformer-basierten vorgefertigten ViT-g/14-Modell erreicht das LiT-Modell eine Genauigkeit von 85,2 % bei der Null-Shot-Übertragung auf den ImageNet-Testdatensatz und 82,5 % auf dem anspruchsvollen Out-of-Distribution ObjectNet-Testdatensatz.