19日前
Pixtral 12B
Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna, Devendra Chaplot, Jessica Chudnovsky, Saurabh Garg, Theophile Gervet, Soham Ghosh, Amélie Héliou, Paul Jacob, Albert Q. Jiang, Timothée Lacroix, Guillaume Lample, Diego Las Casas, Thibaut Lavril, Teven Le Scao, Andy Lo, William Marshall, Louis Martin, Arthur Mensch, Pavankumar Muddireddy, Valera Nemychnikova, Marie Pellat, Patrick Von Platen, Nikhil Raghuraman, Baptiste Rozière, Alexandre Sablayrolles, Lucile Saulnier, Romain Sauvestre, Wendy Shang, Roman Soletskyi, Lawrence Stewart, Pierre Stock, Joachim Studnia, Sandeep Subramanian, Sagar Vaze, Thomas Wang

要約
Pixtral-12Bを紹介します。これは120億パラメータを有するマルチモーダル言語モデルです。Pixtral-12Bは自然画像およびドキュメントの両方を理解するよう学習されており、さまざまなマルチモーダルベンチマークで最先端の性能を発揮し、多数のより大きなモデルを上回っています。多くのオープンソースモデルとは異なり、Pixtralはその規模に応じて最新のテキスト処理能力を備えており、マルチモーダルタスクで優れた性能を発揮するために自然言語処理能力を犠牲にすることはありません。Pixtralは、新たに訓練された視覚エンコーダーを採用しており、これは画像を自然な解像度とアスペクト比で入力可能にするため、画像処理に使用するトークン数に柔軟性を提供します。また、128Kトークンの長文コンテキスト窓を活用し、任意の数の画像を処理できます。Pixtral-12Bは、同規模の他のオープンモデル(Llama-3.2 11BおよびQwen-2-VL 7B)を大幅に上回り、さらにLlama-3.2 90Bのようなはるかに大きなオープンモデルをも凌駕していますが、そのサイズはそれの7分の1に過ぎません。さらに、実用的なシナリオにおける視覚言語モデルの評価を目的としたオープンソースベンチマーク「MM-MT-Bench」を提供し、マルチモーダル大規模言語モデル(LLM)の標準化評価プロトコルに関する詳細な分析とコードを公開しています。Pixtral-12BはApache 2.0ライセンスの下で公開されています。