il y a 2 mois

Aria : Un Modèle Multimodal Ouvert de Mélange d'Experts Natives

Dongxu Li, Yudong Liu, Haoning Wu, Yue Wang, Zhiqi Shen, Bowen Qu, Xinyao Niu, Guoyin Wang, Bei Chen, Junnan Li

Résumé

Les informations sont présentées sous diverses modalités. Les modèles natifs multimodaux d'IA sont essentiels pour intégrer les informations du monde réel et fournir une compréhension complète. Bien que des modèles natifs multimodaux propriétaires existent, leur manque de transparence pose des obstacles à leur adoption, sans parler de leurs adaptations. Pour combler cette lacune, nous présentons Aria, un modèle natif multimodal ouvert offrant des performances de classe mondiale dans une large gamme de tâches multimodales, linguistiques et de codage. Aria est un modèle hybride d'experts avec 3,9 milliards et 3,5 milliards de paramètres activés par jeton visuel et jeton texte, respectivement. Il surpasse Pixtral-12B et Llama3.2-11B, et se montre compétitif face aux meilleurs modèles propriétaires dans diverses tâches multimodales. Nous pré-entraînons Aria à partir de zéro en suivant un pipeline en quatre étapes, qui dotent progressivement le modèle de capacités robustes en compréhension linguistique, compréhension multimodale, fenêtre contextuelle longue et suivi d'instructions. Nous mettons à disposition les poids du modèle sous licence open source ainsi qu'une base de code facilitant l'adoption et l'adaptation faciles d'Aria dans des applications réelles.