PaLI-X : À propos de l'élargissement d'un modèle multilingue de vision et de langage

Nous présentons la recette d'entraînement et les résultats de l'échelonnage de PaLI-X, un modèle multilingue de vision et de langage, tant en termes de taille des composants que de diversité du mélange des tâches d'entraînement. Notre modèle atteint de nouveaux niveaux de performance sur une large gamme de tâches variées et complexes, y compris des tâches basées sur plusieurs images telles que la légendisation et le question-réponse, la compréhension de documents basée sur des images, l'apprentissage par quelques exemples (en contexte), ainsi que la détection d'objets, le question-réponse vidéo et la légendisation vidéo. PaLI-X fait progresser l'état de l'art sur la plupart des benchmarks considérés en vision et langage (plus de 25). Enfin, nous observons l'émergence de nouvelles capacités, telles que le comptage complexe et la détection d'objets multilingue, qui ne sont pas explicitement incluses dans le mélange d'entraînement.