إيبم تُطلق نموذج لغوي ضخم غرانيت 4.1
أطلقت شركة آي بي إم عائلة نماذج لغوية جديدة تسمى Granite 4.1، والتي تتألف من ثلاث نماذج كثيفة ذات أبعاد مختلفة هي 3 مليارات، و8 مليارات، و30 مليار معلمات. تعتمد هذه النماذج على معمارية "مفكّك فقط" (decoder-only) وتم تدريبها من الصفر باستخدام حوالي 15 تريليون وحدة رمزية، مع التركيز بشكل صارم على جودة البيانات بدلاً من كميتها فقط. يتميز خط الإنتاج هذا بقدرة النماذج على التعامل مع سياقات طويلة تصل إلى 512 ألف رمز، وهو ما يتيح لها معالجة وثائق ضخمة بفعالية عالية. تم بناء النماذج عبر خمسة مراحل تدريب متدرجة، تبدأ بالتمهيد العام للغة، مروراً بتعزيز قدرات الرياضيات والبرمجة، ثم تمرير عالي الجودة للبيانات مع التركيز على البيانات المُنشأة صناعياً، وانتهاءً بمرحلة متخصصة لتوسيع السياق الطويل. في مرحلة ضبط النماذج للإشراف (SFT)، تم استخدام ما يقرب من 4.1 مليون عينة عالية الجودة تم فرزها بدقة عبر إطار عمل "اللغة كنائب للقاضي" ومعايير قاسية، مما يضمن خلو البيانات من الأخطاء الهالية أو المعلومات المضللة قبل تدريب النموذج. بعد مرحلة الضبط، تم تطبيق سلسلة متقدمة من التعلم التعزيزي المكونة من أربع مراحل لتحسين الأداء في مجالات متعددة مثل المنطق، والرياضيات، واتباع التعليمات، والتعامل مع الأدوات. تستخدم هذه العملية خوارزميات متطورة مثل GRPO مع خسارة DAPO لضمان استقرار التدريب وتحسين الكفاءة. أظهرت النتائج أن نموذج Granite 4.1 بسعة 8 مليارات معلمات، رغم كونه نموذجاً كثيفاً وبسيطاً، ينافس ويتفوق في بعض الاختبارات على الجيل السابق من نماذج "المزج" التي تحتوي على 32 مليار معلمات، مع الحفاظ على سرعة استجابة منخفضة وتكاليف تشغيل أقل. تتميز العائلة الجديدة بأداء متميز في مهام البرمجة والرياضيات والفهم متعدد اللغات، حيث يدعم اللغة الإنجليزية بالإضافة إلى الألمانية والإسبانية والفرنسية واليابانية والعربية والعديد من اللغات الأخرى. تم إصدار جميع النماذج تحت رخصة Apache 2.0 مفتوحة المصدر، مع توفير نسخ مضغوطة بدقة 8 بت لتقليل استهلاك الذاكرة والقرص الصلب بمقدار النصف، مما يجعلها مثالية للتطبيقات التجارية التي تتطلب كفاءة عالية. كما تدعم النماذج استدعاء الأدوات الخارجية بشكل دقيق، مما يوسع نطاق استخداماتها في البيئات الإنتاجية. يُعتبر هذا الإصدار قفزة نوعية في تطوير النماذج المفتوحة المصدر، حيث يثبت أن جودة التدريب المختار بعناية تفوق مجرد زيادة حجم النموذج.
