HyperAIHyperAI

Command Palette

Search for a command to run...

LiT: Null-Shot-Transfer mit Locked-Image-Text-Anpassung

Xiaohua Zhai*† Xiao Wang* Basil Mustafa* Andreas Steiner* Daniel Keysers Alexander Kolesnikov Lucas Beyer*†

Zusammenfassung

Dieses Papier stellt Contrastive-Tuning vor, eine einfache Methode, die kontrastives Training zur Anpassung von Bild- und Textmodellen einsetzt, während sie gleichzeitig von deren Vorabtraining profitiert. In unserer empirischen Studie haben wir festgestellt, dass gesperrte vorgefertigte Bildmodelle in Kombination mit entsperrten Textmodellen die besten Ergebnisse liefern. Wir bezeichnen diese Form des Contrastive-Tunings als "Gesperrtes-Bild Tuning" (LiT), welche lediglich einem Textmodell beibringt, aus einem vorgefertigten Bildmodell für neue Aufgaben gute Darstellungen zu extrahieren. Ein LiT-Modell erlangt die Fähigkeit zur Null-Shot-Übertragung auf neue visuelle Aufgaben, wie zum Beispiel Bildklassifizierung oder -retrieval. Das vorgeschlagene LiT ist weit verbreitet anwendbar; es funktioniert zuverlässig mit mehreren Vorabtrainingsmethoden (überwacht und unüberwacht) und über verschiedene Architekturen (ResNet, Visionstransformatoren und MLP-Mixer), indem es drei unterschiedliche Bild-Text-Datensätze verwendet. Mit dem transformer-basierten vorgefertigten ViT-g/14-Modell erreicht das LiT-Modell eine Genauigkeit von 85,2 % bei der Null-Shot-Übertragung auf den ImageNet-Testdatensatz und 82,5 % auf dem anspruchsvollen Out-of-Distribution ObjectNet-Testdatensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp