vor 2 Monaten

PaLI: Ein gemeinsam skaliertes multilinguales Sprach- und Bildmodell

Xi Chen; Xiao Wang; Soravit Changpinyo; AJ Piergiovanni; Piotr Padlewski; Daniel Salz; Sebastian Goodman; Adam Grycner; Basil Mustafa; Lucas Beyer; Alexander Kolesnikov; Joan Puigcerver; Nan Ding; Keran Rong; Hassan Akbari; Gaurav Mishra; Linting Xue; Ashish Thapliyal; James Bradbury; Weicheng Kuo; Mojtaba Seyedhosseini; Chao Jia; Burcu Karagol Ayan; Carlos Riquelme; Andreas Steiner; Anelia Angelova; Xiaohua Zhai; Neil Houlsby; Radu Soricut

Details der Forschungsarbeit anzeigen

PaLI: Ein gemeinsam skaliertes multilinguales Sprach- und Bildmodell

Abstract

Effektive Skalierung und eine flexible Aufgaben-Schnittstelle ermöglichen es großen Sprachmodellen, in vielen Aufgaben hervorragend abzuschneiden. Wir stellen PaLI (Pathways Language and Image Modell) vor, ein Modell, das diesen Ansatz auf die gemeinsame Modellierung von Sprache und Vision erweitert. PaLI generiert Text basierend auf visuellen und textuellen Eingaben und führt mit dieser Schnittstelle viele visuelle, sprachliche und multimodale Aufgaben in verschiedenen Sprachen aus. Um PaLI zu trainieren, nutzen wir große vortrainierte Encoder-Decoder-Sprachmodelle und Vision Transformers (ViTs). Dies ermöglicht es uns, ihre vorhandenen Fähigkeiten zu nutzen und die erheblichen Kosten ihrer Trainierung zu nutzen. Wir stellen fest, dass die gemeinsame Skalierung der visuellen und sprachlichen Komponenten wichtig ist. Da bestehende Transformer für Sprache viel größer sind als ihre visuellen Entsprechungen, trainieren wir einen großen Vision Transformer mit 4 Milliarden Parametern (ViT-e), um die Vorteile noch größergängiger visueller Modelle zu quantifizieren. Um PaLI zu trainieren, erstellen wir eine große mehrsprachige Mischung von Vortrainieraufgaben, basierend auf einem neuen Bild-Text-Datensatz, der 10 Milliarden Bilder und Texte in über 100 Sprachen enthält. PaLI erreicht den Stand der Technik in mehreren visuellen und sprachlichen Aufgaben (wie Bildunterschriftenerstellung, visuelle Fragebeantwortung, Szene-Text-Verständnis), während es ein einfaches, modulares und skalierbares Design beibehält.