HyperAIHyperAI

Command Palette

Search for a command to run...

SONAR-LLM: تحويلة ذاتية الانطلاق تفكر في تضمين الجمل وتحدث بالرموز

Nikita Dragunov Temurbek Rahmatullaev Elizaveta Goncharova Andrey Kuznetsov Anton Razzhigaev

الملخص

أعلن مؤخرًا عن نموذج المفهوم الكبير (LCM)، الذي يُولِّد النص من خلال التنبؤ بتسلسل من التضمينات على مستوى الجملة، مع التدريب باستخدام إما دالة الخطأ التربيعي المتوسط أو أهداف التفتيت. نقدّم نموذج SONAR-LLM، وهو نموذج ترميز فقط (decoder-only) من نوع المحول (transformer)، يُفكّر في نفس الفضاء التضميني المستمر الخاص بـ SONAR، مع التدريب عبر دالة التباعد العاطفي على مستوى الرموز (token-level cross-entropy)، التي تُنقل عبر مُفكّك SONAR الثابت. يُحافظ هذا الهدف الهجين على التبسيط الدلالي المميز لنموذج LCM، مع التخلص من مُولّد التفتيت (diffusion sampler) واستعادة إشارة تدريب تعتمد على الاحتمال (likelihood-based). وقد حقق نموذج SONAR-LLM جودة مُنتَجة تنافسية عبر نطاقات مختلفة من حجم النموذج، تتراوح بين 39 مليون و1.3 مليار معلمة. ونُقدّم في هذا العمل تحليلات للاتجاهات المرتبطة بالتوسع (scaling trends)، ونتائج اختبارات التقييم (ablations)، ونتائج مقارنات على مجموعة معايير (benchmarks)، كما نُفرِّغ كل كود التدريب الكامل وجميع نقاط التدريب المسبق (pretrained checkpoints) لتعزيز قابلية إعادة التكرار (reproducibility) ودعم الأبحاث المستقبلية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
SONAR-LLM: تحويلة ذاتية الانطلاق تفكر في تضمين الجمل وتحدث بالرموز | مستندات | HyperAI