HyperAIHyperAI

Command Palette

Search for a command to run...

PaLI-X: Über die Skalierung eines mehrsprachigen visuellen und sprachlichen Modells

Zusammenfassung

Wir präsentieren das Trainingsrezept und die Ergebnisse der Skalierung von PaLI-X, einem mehrsprachigen Modell für Vision und Sprache, sowohl hinsichtlich der Größe der Komponenten als auch der Vielfalt seiner Trainingsaufgaben. Unser Modell erreicht neue Leistungsstufen bei einer breiten Palette verschiedener und komplexer Aufgaben, darunter mehrere bildbasierte Captioning- und Frage-Antwort-Aufgaben, bildbasiertes Dokumentverstehen sowie Few-Shot-(In-Kontext-) Lernen. Zudem verbessert es sich in den Bereichen Objekterkennung, Video-Frage-Antwort-Aufgaben und Video-Captioning. PaLI-X setzt neue Maßstäbe in den meisten betrachteten Benchmarks für Vision-und-Sprachemodelle (über 25). Schließlich beobachten wir auftauchende Fähigkeiten wie komplexe Zählungen und mehrsprachige Objekterkennung, Aufgaben, die nicht explizit im Trainingsmix enthalten sind.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PaLI-X: Über die Skalierung eines mehrsprachigen visuellen und sprachlichen Modells | Paper | HyperAI