HyperAIHyperAI

Command Palette

Search for a command to run...

PaLI: Ein gemeinsam skaliertes multilinguales Sprach- und Bildmodell

Zusammenfassung

Effektive Skalierung und eine flexible Aufgaben-Schnittstelle ermöglichen es großen Sprachmodellen, in vielen Aufgaben hervorragend abzuschneiden. Wir stellen PaLI (Pathways Language and Image Modell) vor, ein Modell, das diesen Ansatz auf die gemeinsame Modellierung von Sprache und Vision erweitert. PaLI generiert Text basierend auf visuellen und textuellen Eingaben und führt mit dieser Schnittstelle viele visuelle, sprachliche und multimodale Aufgaben in verschiedenen Sprachen aus. Um PaLI zu trainieren, nutzen wir große vortrainierte Encoder-Decoder-Sprachmodelle und Vision Transformers (ViTs). Dies ermöglicht es uns, ihre vorhandenen Fähigkeiten zu nutzen und die erheblichen Kosten ihrer Trainierung zu nutzen. Wir stellen fest, dass die gemeinsame Skalierung der visuellen und sprachlichen Komponenten wichtig ist. Da bestehende Transformer für Sprache viel größer sind als ihre visuellen Entsprechungen, trainieren wir einen großen Vision Transformer mit 4 Milliarden Parametern (ViT-e), um die Vorteile noch größergängiger visueller Modelle zu quantifizieren. Um PaLI zu trainieren, erstellen wir eine große mehrsprachige Mischung von Vortrainieraufgaben, basierend auf einem neuen Bild-Text-Datensatz, der 10 Milliarden Bilder und Texte in über 100 Sprachen enthält. PaLI erreicht den Stand der Technik in mehreren visuellen und sprachlichen Aufgaben (wie Bildunterschriftenerstellung, visuelle Fragebeantwortung, Szene-Text-Verständnis), während es ein einfaches, modulares und skalierbares Design beibehält.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp