HyperAIHyperAI

Command Palette

Search for a command to run...

Sigmoid-Gewinn für die Sprache-Bild-Vortrainierung

Xiaohua Zhai Basil Mustafa Alexander Kolesnikov Lucas Beyer

Zusammenfassung

Wir schlagen eine einfache paarweise Sigmoid-Verlustfunktion für die Sprache-Bild-Vortrainierung (SigLIP) vor. Im Gegensatz zur herkömmlichen kontrastiven Lernmethode mit Softmax-Normalisierung arbeitet die Sigmoid-Verlustfunktion ausschließlich auf Bild-Text-Paaren und erfordert keine globale Sicht auf die paarweisen Ähnlichkeiten zur Normalisierung. Der Sigmoid-Verlust ermöglicht gleichzeitig eine weitere Skalierung der Batch-Größe, während er zugleich bei kleineren Batch-Größen eine bessere Leistung erzielt. In Kombination mit Locked-Image-Tuning trainieren wir mit lediglich vier TPUv4-Chips ein SigLiT-Modell, das innerhalb von zwei Tagen eine ImageNet-Zero-Shot-Accuracy von 84,5 % erreicht. Die Entkoppelung der Batch-Größe vom Verlust ermöglicht zudem eine detaillierte Untersuchung des Einflusses von Beispielen gegenüber Paaren sowie des Verhältnisses von negativen zu positiven Beispielen. Schließlich treiben wir die Batch-Größe bis zum Extrem, bis zu einer Million, voran, und stellen fest, dass die Vorteile einer weiteren Vergrößerung der Batch-Größe schnell abnehmen, wobei eine sinnvollere Batch-Größe von 32k ausreicht. Wir stellen unsere Modelle unter https://github.com/google-research/big_vision zur Verfügung und hoffen, dass unsere Forschung weitere Untersuchungen zur Verbesserung der Qualität und Effizienz der Sprache-Bild-Vortrainierung anregt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp