vor 2 Monaten

Aria: Ein offenes multimodales natives Expertenmischungsmodell

Dongxu Li, Yudong Liu, Haoning Wu, Yue Wang, Zhiqi Shen, Bowen Qu, Xinyao Niu, Guoyin Wang, Bei Chen, Junnan Li

Abstract

Information wird in verschiedenen Modalitäten bereitgestellt. Multimodale native KI-Modelle sind entscheidend, um reale Informationen zu integrieren und ein umfassendes Verständnis zu liefern. Obwohl proprietäre multimodale native Modelle existieren, stellt ihr Mangel an Offenheit eine Hürde für die Nutzung dar, geschweige denn für Anpassungen. Um diese Lücke zu schließen, stellen wir Aria vor, ein offenes multimodales natives Modell mit erstklassiger Leistung in einer Vielzahl von multimodalen, sprachlichen und codierungsbezogenen Aufgaben. Aria ist ein Expertenmischmodell mit 3,9 Milliarden und 3,5 Milliarden aktivierten Parametern pro visuellem Token und Texttoken jeweils. Es übertrifft Pixtral-12B und Llama3.2-11B und hält sich mit den besten proprietären Modellen bei verschiedenen multimodalen Aufgaben auf einem gleichwertigen Niveau. Wir trainieren Aria von Grund auf nach einem vierstufigen Pipeline-Prozess, der das Modell schrittweise mit starken Fähigkeiten im Sprachverstehen, Multimodalverstehen, langer Kontextfenster und Instruktionserkennung ausstattet. Wir veröffentlichen die Modellgewichte unter einer Open-Source-Lizenz zusammen mit einem Codebasis, der es erleichtert, Aria in realen Anwendungen einzusetzen und anzupassen.