HyperAIHyperAI
vor 2 Monaten

PaLI-X: Über die Skalierung eines mehrsprachigen visuellen und sprachlichen Modells

Chen, Xi ; Djolonga, Josip ; Padlewski, Piotr ; Mustafa, Basil ; Changpinyo, Soravit ; Wu, Jialin ; Ruiz, Carlos Riquelme ; Goodman, Sebastian ; Wang, Xiao ; Tay, Yi ; Shakeri, Siamak ; Dehghani, Mostafa ; Salz, Daniel ; Lucic, Mario ; Tschannen, Michael ; Nagrani, Arsha ; Hu, Hexiang ; Joshi, Mandar ; Pang, Bo ; Montgomery, Ceslee ; Pietrzyk, Paulina ; Ritter, Marvin ; Piergiovanni, AJ ; Minderer, Matthias ; Pavetic, Filip ; Waters, Austin ; Li, Gang ; Alabdulmohsin, Ibrahim ; Beyer, Lucas ; Amelot, Julien ; Lee, Kenton ; Steiner, Andreas Peter ; Li, Yang ; Keysers, Daniel ; Arnab, Anurag ; Xu, Yuanzhong ; Rong, Keran ; Kolesnikov, Alexander ; Seyedhosseini, Mojtaba ; Angelova, Anelia ; Zhai, Xiaohua ; Houlsby, Neil ; Soricut, Radu
PaLI-X: Über die Skalierung eines mehrsprachigen visuellen und sprachlichen Modells
Abstract

Wir präsentieren das Trainingsrezept und die Ergebnisse der Skalierung von PaLI-X, einem mehrsprachigen Modell für Vision und Sprache, sowohl hinsichtlich der Größe der Komponenten als auch der Vielfalt seiner Trainingsaufgaben. Unser Modell erreicht neue Leistungsstufen bei einer breiten Palette verschiedener und komplexer Aufgaben, darunter mehrere bildbasierte Captioning- und Frage-Antwort-Aufgaben, bildbasiertes Dokumentverstehen sowie Few-Shot-(In-Kontext-) Lernen. Zudem verbessert es sich in den Bereichen Objekterkennung, Video-Frage-Antwort-Aufgaben und Video-Captioning. PaLI-X setzt neue Maßstäbe in den meisten betrachteten Benchmarks für Vision-und-Sprachemodelle (über 25). Schließlich beobachten wir auftauchende Fähigkeiten wie komplexe Zählungen und mehrsprachige Objekterkennung, Aufgaben, die nicht explizit im Trainingsmix enthalten sind.

PaLI-X: Über die Skalierung eines mehrsprachigen visuellen und sprachlichen Modells | Neueste Forschungsarbeiten | HyperAI