PaLI : Un modèle multilingue conjointement échelonné pour le langage et les images

L'échelonnage efficace et une interface de tâches flexible permettent aux grands modèles de langage d'exceller dans de nombreuses tâches. Nous présentons PaLI (Pathways Language and Image model), un modèle qui étend cette approche à la modélisation conjointe du langage et de la vision. PaLI génère du texte en fonction des entrées visuelles et textuelles, et grâce à cette interface, il effectue de nombreuses tâches visuelles, linguistiques et multimodales, dans de nombreuses langues. Pour entraîner PaLI, nous utilisons des grands modèles de langage pré-entraînés et des Transformers visuels (ViTs). Cela nous permet d'exploiter leurs capacités existantes et de tirer parti du coût substantiel de leur entraînement. Nous constatons que l'échelonnage conjoint des composants visuels et linguistiques est important. Étant donné que les Transformers existants pour le langage sont beaucoup plus volumineux que leurs homologues visuels, nous avons formé un grand ViT doté de 4 milliards de paramètres (ViT-e) pour quantifier les avantages apportés par des modèles visuels encore plus puissants. Pour entraîner PaLI, nous avons créé un grand mélange multilingue de tâches d'entraînement préliminaire, basé sur un nouveau ensemble d'entraînement image-texte contenant 10 milliards d'images et de textes dans plus de 100 langues. PaLI atteint l'état de l'art dans plusieurs tâches visuelles et linguistiques (comme la légendisation, la réponse à des questions visuelles, la compréhension du texte en scène), tout en conservant une conception simple, modulaire et évolutive.