بيكسترال 12B

نقدّم نموذج Pixtral-12B، وهو نموذج لغوي متعدد الوسائط بحجم 12 مليار معامل.يُدرّب Pixtral-12B على فهم الصور الطبيعية والمستندات معًا، ويحقق أداءً متفوقًا في مجموعة متنوعة من معايير التقييم متعددة الوسائط، متفوقًا على العديد من النماذج الأكبر حجمًا. على عكس العديد من النماذج المفتوحة المصدر، فإن Pixtral يُعد أيضًا نموذجًا نصيًا متطورًا لحجمه، ولا يُقلّل من أدائه في المهام اللغوية الطبيعية من أجل التفوق في المهام متعددة الوسائط. يستخدم Pixtral مشغلًا بصريًا جديدًا تم تدريبه من الصفر، مما يمكّنه من استقبال الصور بحجمها الطبيعي ونسبة العرض إلى الارتفاع الأصلية. وهذا يمنح المستخدمين مرونة في عدد الرموز (tokens) المستخدمة لمعالجة صورة معينة. كما يمكن لـ Pixtral معالجة أي عدد من الصور ضمن نافذة محتوى طويلة تصل إلى 128 ألف رمز. ويتفوّق Pixtral 12B بشكل ملحوظ على غيره من النماذج المفتوحة ذات الحجم المماثل (مثل Llama-3.2 11B و Qwen-2-VL 7B)، كما يتفوّق على نماذج مفتوحة أكبر بكثير مثل Llama-3.2 90B رغم أن حجمه أصغر بـ 7 مرات. ونُقدّم أيضًا معيارًا مفتوح المصدر، يُسمّى MM-MT-Bench، لتقييم نماذج اللغة والرؤية في السياقات العملية، مع توفير تحليل مفصل وشفرة مصدقة لبروتوكولات التقييم القياسية الخاصة بالنماذج الكبيرة متعددة الوسائط. تم إصدار Pixtral-12B تحت ترخيص Apache 2.0.