Rapport technique SAIL-VL2

Nous présentons SAIL-VL2, un modèle fondamental multimodal vision-langage (LVM) open-source conçu pour une compréhension et un raisonnement multimodaux complets. En tant que successeur de SAIL-VL, SAIL-VL2 atteint des performances de pointe aux échelles de 2 milliards et 8 milliards de paramètres sur une variété de benchmarks d’images et de vidéos, démontrant ainsi des capacités solides allant de la perception fine à des raisonnements complexes. Trois innovations clés sont à l’origine de son efficacité. Premièrement, un pipeline de curatation à grande échelle des données, associé à des stratégies de notation et de filtrage, améliore à la fois la qualité et la distribution des données pour les tâches de légendage, de reconnaissance optique de caractères (OCR), de question-réponse (QA) et de vidéos, augmentant ainsi l’efficacité d’entraînement. Deuxièmement, un cadre d’entraînement progressif commence par un encodeur visuel pré-entraîné puissant (SAIL-ViT), passe par un pré-entraînement multimodal, puis aboutit à un paradigme hybride SFT-RL fondé sur la fusion de la pensée, qui renforce de manière systématique les capacités du modèle. Troisièmement, des avancées architecturales vont au-delà des grands modèles linguistiques denses (LLM) pour inclure des conceptions efficaces basées sur des mélanges d’experts (Mixture-of-Experts, MoE) à faible densité. Grâce à ces contributions, SAIL-VL2 atteint des performances compétitives sur 106 jeux de données et réalise des résultats de pointe sur des benchmarks exigeants en raisonnement tels que MMMU et MathVista. En outre, sur le classement OpenCompass, SAIL-VL2-2B occupe la première place parmi les modèles open-source officiellement publiés sous l’échelle de 4 milliards de paramètres, tout en offrant une base efficace et extensible pour la communauté open-source multimodale.