il y a 19 jours

Pixtral 12B

Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna, Devendra Chaplot, Jessica Chudnovsky, Saurabh Garg, Theophile Gervet, Soham Ghosh, Amélie Héliou, Paul Jacob, Albert Q. Jiang, Timothée Lacroix, Guillaume Lample, Diego Las Casas, Thibaut Lavril, Teven Le Scao, Andy Lo, William Marshall, Louis Martin, Arthur Mensch, Pavankumar Muddireddy, Valera Nemychnikova, Marie Pellat, Patrick Von Platen, Nikhil Raghuraman, Baptiste Rozière, Alexandre Sablayrolles, Lucile Saulnier, Romain Sauvestre, Wendy Shang, Roman Soletskyi, Lawrence Stewart, Pierre Stock, Joachim Studnia, Sandeep Subramanian, Sagar Vaze, Thomas Wang

Voir les détails de l'article

Résumé

Nous présentons Pixtral-12B, un modèle linguistique multimodal de 12 milliards de paramètres.Pixtral-12B est entraîné pour comprendre à la fois les images naturelles et les documents, atteignant des performances de pointe sur diverses benchmarks multimodales, dépassant plusieurs modèles plus volumineux. Contrairement à de nombreux modèles open-source, Pixtral est également un modèle de pointe en traitement du langage naturel pour sa taille, sans compromettre ses performances linguistiques au profit des tâches multimodales. Pixtral utilise un nouvel encodeur visuel entraîné depuis le début, permettant d’ingérer des images à leur résolution et rapport d’aspect naturels. Cela offre aux utilisateurs une grande flexibilité quant au nombre de tokens utilisés pour traiter une image. Pixtral est également capable de traiter un nombre quelconque d’images dans sa fenêtre contextuelle longue de 128 000 tokens. Pixtral-12B surpasse significativement d’autres modèles open-source de taille similaire (Llama-3.2 11B et Qwen-2-VL 7B), tout en dépassant des modèles open-source bien plus volumineux comme Llama-3.2 90B, tout en étant 7 fois plus petit. Nous proposons également un benchmark open-source, MM-MT-Bench, pour évaluer les modèles vision-langage dans des scénarios réels, accompagné d’une analyse détaillée et de code pour des protocoles d’évaluation standardisés des grands modèles linguistiques multimodaux. Pixtral-12B est publié sous licence Apache 2.0.