Sigmoid-Gewinn für die Sprache-Bild-Vortrainierung

Wir schlagen eine einfache paarweise Sigmoid-Verlustfunktion für die Sprache-Bild-Vortrainierung (SigLIP) vor. Im Gegensatz zur herkömmlichen kontrastiven Lernmethode mit Softmax-Normalisierung arbeitet die Sigmoid-Verlustfunktion ausschließlich auf Bild-Text-Paaren und erfordert keine globale Sicht auf die paarweisen Ähnlichkeiten zur Normalisierung. Der Sigmoid-Verlust ermöglicht gleichzeitig eine weitere Skalierung der Batch-Größe, während er zugleich bei kleineren Batch-Größen eine bessere Leistung erzielt. In Kombination mit Locked-Image-Tuning trainieren wir mit lediglich vier TPUv4-Chips ein SigLiT-Modell, das innerhalb von zwei Tagen eine ImageNet-Zero-Shot-Accuracy von 84,5 % erreicht. Die Entkoppelung der Batch-Größe vom Verlust ermöglicht zudem eine detaillierte Untersuchung des Einflusses von Beispielen gegenüber Paaren sowie des Verhältnisses von negativen zu positiven Beispielen. Schließlich treiben wir die Batch-Größe bis zum Extrem, bis zu einer Million, voran, und stellen fest, dass die Vorteile einer weiteren Vergrößerung der Batch-Größe schnell abnehmen, wobei eine sinnvollere Batch-Größe von 32k ausreicht. Wir stellen unsere Modelle unter https://github.com/google-research/big_vision zur Verfügung und hoffen, dass unsere Forschung weitere Untersuchungen zur Verbesserung der Qualität und Effizienz der Sprache-Bild-Vortrainierung anregt.