19 天前
Pixtral 12B
Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna, Devendra Chaplot, Jessica Chudnovsky, Saurabh Garg, Theophile Gervet, Soham Ghosh, Amélie Héliou, Paul Jacob, Albert Q. Jiang, Timothée Lacroix, Guillaume Lample, Diego Las Casas, Thibaut Lavril, Teven Le Scao, Andy Lo, William Marshall, Louis Martin, Arthur Mensch, Pavankumar Muddireddy, Valera Nemychnikova, Marie Pellat, Patrick Von Platen, Nikhil Raghuraman, Baptiste Rozière, Alexandre Sablayrolles, Lucile Saulnier, Romain Sauvestre, Wendy Shang, Roman Soletskyi, Lawrence Stewart, Pierre Stock, Joachim Studnia, Sandeep Subramanian, Sagar Vaze, Thomas Wang

摘要
我们推出Pixtral-12B,一款拥有120亿参数的多模态语言模型。Pixtral-12B经过训练,能够理解自然图像与文档,在多个多模态基准测试中表现出领先性能,超越了众多参数规模更大的模型。与许多开源模型不同,Pixtral在同等规模下同样具备前沿的文本处理能力,其自然语言理解与生成性能并未因专注于多模态任务而妥协。 Pixtral采用了一个从零开始训练的新型视觉编码器,支持以图像原始分辨率和宽高比直接输入,从而赋予用户在处理图像时灵活选择token数量的能力。此外,该模型在长达128K tokens的上下文窗口中,可处理任意数量的图像。 在性能表现上,Pixtral-12B显著优于其他同规模的开源模型(如Llama-3.2 11B与Qwen-2-VL 7B),并超越了参数量大得多的开源模型(如Llama-3.2 90B),而模型体积仅为后者的七分之一。 为进一步推动多模态大模型的评估发展,我们还开源了一个名为MM-MT-Bench的基准测试集,用于在实际应用场景中评估视觉-语言模型。我们同时提供了详细的分析结果与标准化评估协议的完整代码,以促进多模态大语言模型评测的规范化与可复现性。 Pixtral-12B采用Apache 2.0开源许可证发布。