منذ 19 أيام

بيكسترال 12B

Pravesh Agrawal, Szymon Antoniak, Emma Bou Hanna, Devendra Chaplot, Jessica Chudnovsky, Saurabh Garg, Theophile Gervet, Soham Ghosh, Amélie Héliou, Paul Jacob, Albert Q. Jiang, Timothée Lacroix, Guillaume Lample, Diego Las Casas, Thibaut Lavril, Teven Le Scao, Andy Lo, William Marshall, Louis Martin, Arthur Mensch, Pavankumar Muddireddy, Valera Nemychnikova, Marie Pellat, Patrick Von Platen, Nikhil Raghuraman, Baptiste Rozière, Alexandre Sablayrolles, Lucile Saulnier, Romain Sauvestre, Wendy Shang, Roman Soletskyi, Lawrence Stewart, Pierre Stock, Joachim Studnia, Sandeep Subramanian, Sagar Vaze, Thomas Wang

عرض تفاصيل الورقة البحثية

الملخص

نقدّم نموذج Pixtral-12B، وهو نموذج لغوي متعدد الوسائط بحجم 12 مليار معامل.يُدرّب Pixtral-12B على فهم الصور الطبيعية والمستندات معًا، ويحقق أداءً متفوقًا في مجموعة متنوعة من معايير التقييم متعددة الوسائط، متفوقًا على العديد من النماذج الأكبر حجمًا. على عكس العديد من النماذج المفتوحة المصدر، فإن Pixtral يُعد أيضًا نموذجًا نصيًا متطورًا لحجمه، ولا يُقلّل من أدائه في المهام اللغوية الطبيعية من أجل التفوق في المهام متعددة الوسائط. يستخدم Pixtral مشغلًا بصريًا جديدًا تم تدريبه من الصفر، مما يمكّنه من استقبال الصور بحجمها الطبيعي ونسبة العرض إلى الارتفاع الأصلية. وهذا يمنح المستخدمين مرونة في عدد الرموز (tokens) المستخدمة لمعالجة صورة معينة. كما يمكن لـ Pixtral معالجة أي عدد من الصور ضمن نافذة محتوى طويلة تصل إلى 128 ألف رمز. ويتفوّق Pixtral 12B بشكل ملحوظ على غيره من النماذج المفتوحة ذات الحجم المماثل (مثل Llama-3.2 11B و Qwen-2-VL 7B)، كما يتفوّق على نماذج مفتوحة أكبر بكثير مثل Llama-3.2 90B رغم أن حجمه أصغر بـ 7 مرات. ونُقدّم أيضًا معيارًا مفتوح المصدر، يُسمّى MM-MT-Bench، لتقييم نماذج اللغة والرؤية في السياقات العملية، مع توفير تحليل مفصل وشفرة مصدقة لبروتوكولات التقييم القياسية الخاصة بالنماذج الكبيرة متعددة الوسائط. تم إصدار Pixtral-12B تحت ترخيص Apache 2.0.