HyperAIHyperAI

Command Palette

Search for a command to run...

Rapport technique SAIL-VL2

Résumé

Nous présentons SAIL-VL2, un modèle fondamental multimodal vision-langage (LVM) open-source conçu pour une compréhension et un raisonnement multimodaux complets. En tant que successeur de SAIL-VL, SAIL-VL2 atteint des performances de pointe aux échelles de 2 milliards et 8 milliards de paramètres sur une variété de benchmarks d’images et de vidéos, démontrant ainsi des capacités solides allant de la perception fine à des raisonnements complexes. Trois innovations clés sont à l’origine de son efficacité. Premièrement, un pipeline de curatation à grande échelle des données, associé à des stratégies de notation et de filtrage, améliore à la fois la qualité et la distribution des données pour les tâches de légendage, de reconnaissance optique de caractères (OCR), de question-réponse (QA) et de vidéos, augmentant ainsi l’efficacité d’entraînement. Deuxièmement, un cadre d’entraînement progressif commence par un encodeur visuel pré-entraîné puissant (SAIL-ViT), passe par un pré-entraînement multimodal, puis aboutit à un paradigme hybride SFT-RL fondé sur la fusion de la pensée, qui renforce de manière systématique les capacités du modèle. Troisièmement, des avancées architecturales vont au-delà des grands modèles linguistiques denses (LLM) pour inclure des conceptions efficaces basées sur des mélanges d’experts (Mixture-of-Experts, MoE) à faible densité. Grâce à ces contributions, SAIL-VL2 atteint des performances compétitives sur 106 jeux de données et réalise des résultats de pointe sur des benchmarks exigeants en raisonnement tels que MMMU et MathVista. En outre, sur le classement OpenCompass, SAIL-VL2-2B occupe la première place parmi les modèles open-source officiellement publiés sous l’échelle de 4 milliards de paramètres, tout en offrant une base efficace et extensible pour la communauté open-source multimodale.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp