HyperAIHyperAI
il y a 2 mois

PaLI-X : À propos de l'élargissement d'un modèle multilingue de vision et de langage

Chen, Xi ; Djolonga, Josip ; Padlewski, Piotr ; Mustafa, Basil ; Changpinyo, Soravit ; Wu, Jialin ; Ruiz, Carlos Riquelme ; Goodman, Sebastian ; Wang, Xiao ; Tay, Yi ; Shakeri, Siamak ; Dehghani, Mostafa ; Salz, Daniel ; Lucic, Mario ; Tschannen, Michael ; Nagrani, Arsha ; Hu, Hexiang ; Joshi, Mandar ; Pang, Bo ; Montgomery, Ceslee ; Pietrzyk, Paulina ; Ritter, Marvin ; Piergiovanni, AJ ; Minderer, Matthias ; Pavetic, Filip ; Waters, Austin ; Li, Gang ; Alabdulmohsin, Ibrahim ; Beyer, Lucas ; Amelot, Julien ; Lee, Kenton ; Steiner, Andreas Peter ; Li, Yang ; Keysers, Daniel ; Arnab, Anurag ; Xu, Yuanzhong ; Rong, Keran ; Kolesnikov, Alexander ; Seyedhosseini, Mojtaba ; Angelova, Anelia ; Zhai, Xiaohua ; Houlsby, Neil ; Soricut, Radu
PaLI-X : À propos de l'élargissement d'un modèle multilingue de vision et de langage
Résumé

Nous présentons la recette d'entraînement et les résultats de l'échelonnage de PaLI-X, un modèle multilingue de vision et de langage, tant en termes de taille des composants que de diversité du mélange des tâches d'entraînement. Notre modèle atteint de nouveaux niveaux de performance sur une large gamme de tâches variées et complexes, y compris des tâches basées sur plusieurs images telles que la légendisation et le question-réponse, la compréhension de documents basée sur des images, l'apprentissage par quelques exemples (en contexte), ainsi que la détection d'objets, le question-réponse vidéo et la légendisation vidéo. PaLI-X fait progresser l'état de l'art sur la plupart des benchmarks considérés en vision et langage (plus de 25). Enfin, nous observons l'émergence de nouvelles capacités, telles que le comptage complexe et la détection d'objets multilingue, qui ne sont pas explicitement incluses dans le mélange d'entraînement.

PaLI-X : À propos de l'élargissement d'un modèle multilingue de vision et de langage | Articles de recherche récents | HyperAI