2ヶ月前

アリア：オープンな多モーダルネイティブのエキスパート混合モデル

Dongxu Li, Yudong Liu, Haoning Wu, Yue Wang, Zhiqi Shen, Bowen Qu, Xinyao Niu, Guoyin Wang, Bei Chen, Junnan Li

要約

情報は多様なモダリティで提供されます。マルチモーダルネイティブAIモデルは、現実世界の情報を統合し、包括的な理解を提供するために不可欠です。既存のプロプライエタリーなマルチモーダルネイティブモデルはありますが、それらの非公開性が採用、さらには適応に障壁となっています。このギャップを埋めるために、我々はAriaというオープンなマルチモーダルネイティブモデルを紹介します。Ariaは幅広いマルチモーダル、言語、およびコーディングタスクにおいてクラス最高の性能を発揮します。Ariaは3.9Bと3.5Bのアクティベートされたパラメータを持つエキスパート混合モデルであり、それぞれ視覚トークンとテキストトークンに対応しています。Pixtral-12BやLlama3.2-11Bを上回り、さまざまなマルチモーダルタスクにおいて最高峰のプロプライエタリーなモデルと競争力があります。我々は4段階のパイプラインに従ってAriaをゼロから事前学習させました。このパイプラインにより、言語理解、マルチモーダル理解、長文脈ウィンドウ、指示追従という強力な能力が順次モデルに付与されます。さらに、現実世界でのアプリケーションにおけるAriaの容易な採用と適応を支援するためのコードベースとともに、モデルの重みをオープンソース化しました。