SONAR-LLM: تحويلة ذاتية الانطلاق تفكر في تضمين الجمل وتحدث بالرموز

أعلن مؤخرًا عن نموذج المفهوم الكبير (LCM)، الذي يُولِّد النص من خلال التنبؤ بتسلسل من التضمينات على مستوى الجملة، مع التدريب باستخدام إما دالة الخطأ التربيعي المتوسط أو أهداف التفتيت. نقدّم نموذج SONAR-LLM، وهو نموذج ترميز فقط (decoder-only) من نوع المحول (transformer)، يُفكّر في نفس الفضاء التضميني المستمر الخاص بـ SONAR، مع التدريب عبر دالة التباعد العاطفي على مستوى الرموز (token-level cross-entropy)، التي تُنقل عبر مُفكّك SONAR الثابت. يُحافظ هذا الهدف الهجين على التبسيط الدلالي المميز لنموذج LCM، مع التخلص من مُولّد التفتيت (diffusion sampler) واستعادة إشارة تدريب تعتمد على الاحتمال (likelihood-based). وقد حقق نموذج SONAR-LLM جودة مُنتَجة تنافسية عبر نطاقات مختلفة من حجم النموذج، تتراوح بين 39 مليون و1.3 مليار معلمة. ونُقدّم في هذا العمل تحليلات للاتجاهات المرتبطة بالتوسع (scaling trends)، ونتائج اختبارات التقييم (ablations)، ونتائج مقارنات على مجموعة معايير (benchmarks)، كما نُفرِّغ كل كود التدريب الكامل وجميع نقاط التدريب المسبق (pretrained checkpoints) لتعزيز قابلية إعادة التكرار (reproducibility) ودعم الأبحاث المستقبلية.