HyperAIHyperAI

Command Palette

Search for a command to run...

PaLI-3 Visuelle Sprachmodelle: Kleiner, Schneller, Stärker

Xi Chen∗, Xiao Wang∗, Lucas Beyer∗, Alexander Kolesnikov∗, Jialin Wu1, Paul Voigtländer1, Basil Mustafa2, Sebastian Goodman1, Ibrahim Alabdulmohsin2, Piotr Padlewski2, Daniel Salz1, Xi Xiong3, Daniel Vlasic3, Filip Pavetic2, Keran Rong2, Tianli Yu3, Daniel Keysers2, Xiaohua Zhai†, Radu Soricut†

Zusammenfassung

Dieses Papier stellt PaLI-3 vor, ein kleineres, schnelleres und leistungsfähigeres Modell für visuelle Sprachverarbeitung (VLM), das sich günstig mit ähnlichen Modellen vergleicht, die zehnmal größer sind. Im Rahmen der Erreichung dieser starken Leistung werden Vision Transformer (ViT)-Modelle, die mit Klassifizierungsaufgaben vortrainiert wurden, mit kontrastbasiert (SigLIP) vortrainierten Modellen verglichen. Wir stellen fest, dass SigLIP-basierte PaLI-Modelle, obwohl sie auf standardisierten Bildklassifizierungsbenchmarks leicht unterdurchschnittlich abschneiden, überlegen in verschiedenen multimodalen Benchmarks performen, insbesondere bei der Lokalisierung und dem verorteten Textverständnis. Wir skalieren den SigLIP-Bildencoder auf 2 Milliarden Parameter und erreichen damit einen neuen Stand der Technik im Bereich des mehrsprachigen kreuzmodalen Retrievals. Es ist unser Wunsch, dass PaLI-3 mit nur 5 Milliarden Parametern die Forschung zu grundlegenden Komponenten komplexer VLMs neu belebt und eine neue Generation skaliert aufgebauder Modelle fördert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp