HyperAIHyperAI
vor 2 Monaten

Wiedergewinnbare Skalengesetze für kontrastives Sprach- und Bildlernverfahren

Cherti, Mehdi ; Beaumont, Romain ; Wightman, Ross ; Wortsman, Mitchell ; Ilharco, Gabriel ; Gordon, Cade ; Schuhmann, Christoph ; Schmidt, Ludwig ; Jitsev, Jenia
Wiedergewinnbare Skalengesetze für kontrastives Sprach- und Bildlernverfahren
Abstract

Das Skalieren von neuronalen Netzen hat zu bemerkenswerten Leistungen in einer Vielzahl von Aufgaben geführt. Darüber hinaus folgt die Leistung oft verlässlichen Skalierungsgesetzen als Funktion der Größe des Trainingsdatensatzes, der Modellgröße und der Rechenleistung, was wertvolle Anleitung bietet, da groß angelegte Experimente zunehmend teurer werden. Allerdings haben bisherige Arbeiten zu Skalierungsgesetzen hauptsächlich private Daten und Modelle verwendet oder sich auf unimodales Sprach- oder Bildlernen konzentriert. Um diese Einschränkungen zu überwinden, untersuchen wir Skalierungsgesetze für kontrastives Sprach-Bild-Vortraining (CLIP) mit dem öffentlichen LAION-Datensatz und dem Open-Source-Repository OpenCLIP. Unsere groß angelegten Experimente beinhalten Modelle, die auf bis zu zwei Milliarden Bild-Text-Paaren trainiert wurden, und identifizieren eine Potenzgesetz-Skalierung für mehrere Downstream-Aufgaben, darunter Zero-Shot-Klassifikation, Retrieval, lineares Probing und end-to-end Feinjustierung. Wir stellen fest, dass die Trainingsverteilung eine Schlüsselrolle bei den Skalierungsgesetzen spielt, da die Modelle von OpenAI und OpenCLIP trotz identischer Modellarchitekturen und ähnlicher Trainingsrezepte unterschiedliches Skalierungsverhalten zeigen. Wir veröffentlichen unseren Evaluationsworkflow sowie alle Modelle, einschließlich der größten öffentlichen CLIP-Modelle, unter einer Open-Source-Lizenz, um Reproduzierbarkeit sicherzustellen und Forschung zu Skalierungsgesetzen zugänglicher zu machen. Der Quellcode und Anweisungen zur Reproduktion dieser Studie werden unter https://github.com/LAION-AI/scaling-laws-openclip verfügbar sein.

Wiedergewinnbare Skalengesetze für kontrastives Sprach- und Bildlernverfahren | Neueste Forschungsarbeiten | HyperAI