Command Palette
Search for a command to run...
PaLI-3 Visuelle Sprachmodelle: Kleiner, Schneller, Stärker
PaLI-3 Visuelle Sprachmodelle: Kleiner, Schneller, Stärker
Xi Chen∗, Xiao Wang∗, Lucas Beyer∗, Alexander Kolesnikov∗, Jialin Wu1, Paul Voigtländer1, Basil Mustafa2, Sebastian Goodman1, Ibrahim Alabdulmohsin2, Piotr Padlewski2, Daniel Salz1, Xi Xiong3, Daniel Vlasic3, Filip Pavetic2, Keran Rong2, Tianli Yu3, Daniel Keysers2, Xiaohua Zhai†, Radu Soricut†
Zusammenfassung
Dieses Papier stellt PaLI-3 vor, ein kleineres, schnelleres und leistungsfähigeres Modell für visuelle Sprachverarbeitung (VLM), das sich günstig mit ähnlichen Modellen vergleicht, die zehnmal größer sind. Im Rahmen der Erreichung dieser starken Leistung werden Vision Transformer (ViT)-Modelle, die mit Klassifizierungsaufgaben vortrainiert wurden, mit kontrastbasiert (SigLIP) vortrainierten Modellen verglichen. Wir stellen fest, dass SigLIP-basierte PaLI-Modelle, obwohl sie auf standardisierten Bildklassifizierungsbenchmarks leicht unterdurchschnittlich abschneiden, überlegen in verschiedenen multimodalen Benchmarks performen, insbesondere bei der Lokalisierung und dem verorteten Textverständnis. Wir skalieren den SigLIP-Bildencoder auf 2 Milliarden Parameter und erreichen damit einen neuen Stand der Technik im Bereich des mehrsprachigen kreuzmodalen Retrievals. Es ist unser Wunsch, dass PaLI-3 mit nur 5 Milliarden Parametern die Forschung zu grundlegenden Komponenten komplexer VLMs neu belebt und eine neue Generation skaliert aufgebauder Modelle fördert.