PaLI-X: Über die Skalierung eines mehrsprachigen visuellen und sprachlichen Modells

Wir präsentieren das Trainingsrezept und die Ergebnisse der Skalierung von PaLI-X, einem mehrsprachigen Modell für Vision und Sprache, sowohl hinsichtlich der Größe der Komponenten als auch der Vielfalt seiner Trainingsaufgaben. Unser Modell erreicht neue Leistungsstufen bei einer breiten Palette verschiedener und komplexer Aufgaben, darunter mehrere bildbasierte Captioning- und Frage-Antwort-Aufgaben, bildbasiertes Dokumentverstehen sowie Few-Shot-(In-Kontext-) Lernen. Zudem verbessert es sich in den Bereichen Objekterkennung, Video-Frage-Antwort-Aufgaben und Video-Captioning. PaLI-X setzt neue Maßstäbe in den meisten betrachteten Benchmarks für Vision-und-Sprachemodelle (über 25). Schließlich beobachten wir auftauchende Fähigkeiten wie komplexe Zählungen und mehrsprachige Objekterkennung, Aufgaben, die nicht explizit im Trainingsmix enthalten sind.