HyperAIHyperAI
vor 2 Monaten

PaLI-3 Visuelle Sprachmodelle: Kleiner, Schneller, Stärker

Chen, Xi ; Wang, Xiao ; Beyer, Lucas ; Kolesnikov, Alexander ; Wu, Jialin ; Voigtlaender, Paul ; Mustafa, Basil ; Goodman, Sebastian ; Alabdulmohsin, Ibrahim ; Padlewski, Piotr ; Salz, Daniel ; Xiong, Xi ; Vlasic, Daniel ; Pavetic, Filip ; Rong, Keran ; Yu, Tianli ; Keysers, Daniel ; Zhai, Xiaohua ; Soricut, Radu
PaLI-3 Visuelle Sprachmodelle: Kleiner, Schneller, Stärker
Abstract

Dieses Papier stellt PaLI-3 vor, ein kleineres, schnelleres und leistungsfähigeres Modell für visuelle Sprachverarbeitung (VLM), das sich günstig mit ähnlichen Modellen vergleicht, die zehnmal größer sind. Im Rahmen der Erreichung dieser starken Leistung werden Vision Transformer (ViT)-Modelle, die mit Klassifizierungsaufgaben vortrainiert wurden, mit kontrastbasiert (SigLIP) vortrainierten Modellen verglichen. Wir stellen fest, dass SigLIP-basierte PaLI-Modelle, obwohl sie auf standardisierten Bildklassifizierungsbenchmarks leicht unterdurchschnittlich abschneiden, überlegen in verschiedenen multimodalen Benchmarks performen, insbesondere bei der Lokalisierung und dem verorteten Textverständnis. Wir skalieren den SigLIP-Bildencoder auf 2 Milliarden Parameter und erreichen damit einen neuen Stand der Technik im Bereich des mehrsprachigen kreuzmodalen Retrievals. Es ist unser Wunsch, dass PaLI-3 mit nur 5 Milliarden Parametern die Forschung zu grundlegenden Komponenten komplexer VLMs neu belebt und eine neue Generation skaliert aufgebauder Modelle fördert.

PaLI-3 Visuelle Sprachmodelle: Kleiner, Schneller, Stärker | Neueste Forschungsarbeiten | HyperAI