Modèles de vision-langage PaLI-3 : Plus petits, plus rapides, plus puissants

Ce document présente PaLI-3, un modèle de vision et de langage (VLM) plus petit, plus rapide et plus performant qui se compare favorablement à des modèles similaires dix fois plus grands. Dans le cadre de l'obtention de ces résultats solides, nous comparons les modèles de Vision Transformer (ViT) préentraînés en utilisant des objectifs de classification aux modèles préentraînés par contraste (SigLIP). Nous constatons que, bien qu'ils sous-performent légèrement sur les benchmarks standard de classification d'images, les PaLI basés sur SigLIP montrent une performance supérieure sur divers benchmarks multimodaux, notamment en localisation et en compréhension du texte située visuellement. Nous augmentons l'encodeur d'images SigLIP jusqu'à 2 milliards de paramètres, atteignant ainsi un nouveau niveau d'état de l'art dans la recherche multilingue croisée modale. Nous espérons que PaLI-3, avec seulement 5 milliards de paramètres, relancera la recherche sur les éléments fondamentaux des VLM complexes et pourrait stimuler une nouvelle génération de modèles évolués.