2달 전

Aria: An Open Multimodal Native Mixture-of-Experts Model 아리아: 오픈 멀티모달 네이티브 전문가 혼합 모델

Dongxu Li, Yudong Liu, Haoning Wu, Yue Wang, Zhiqi Shen, Bowen Qu, Xinyao Niu, Guoyin Wang, Bei Chen, Junnan Li

초록

정보는 다양한 모달리티로 제공됩니다. 다중모달 네이티브 AI 모델은 실제 세계 정보를 통합하고 포괄적인 이해를 제공하는 데 필수적입니다. 독점적인 다중모달 네이티브 모델은 존재하지만, 그들의 개방성 부족으로 인해 도입은 물론이고 적응에도 장애가 됩니다. 이러한 격차를 메우기 위해, 우리는 Aria라는 이름의 최고 수준의 성능을 자랑하는 오픈 소스 다중모달 네이티브 모델을 소개합니다. Aria는 시각 토큰과 텍스트 토큰 각각에 대해 39억과 35억의 활성화된 매개변수를 가진 전문가 혼합 모델입니다. 이 모델은 Pixtral-12B와 Llama3.2-11B를 능가하며, 다양한 다중모달 작업에서 최고의 독점 모델들과 경쟁력을 갖추고 있습니다. 우리는 Aria를 4단계 파이프라인을 따라 처음부터 사전 학습하여, 언어 이해, 다중모달 이해, 긴 컨텍스트 윈도우, 지시사항 준수 등 강력한 기능들을 단계적으로 확보하였습니다. 또한, 실제 응용 프로그램에서 Aria의 도입과 적응을 용이하게 하는 코드베이스와 함께 모델 가중치를 오픈 소스로 공개합니다.