Command Palette
Search for a command to run...
الوعي بالذات يعزز نماذج الاستدلال: التعلم المُعزَّز بالتوافق الذاتي
Yoonjeon Kim Doohyuk Jang Eunho Yang

الملخص
تُركّز الدراسات الحديثة حول نماذج الاستدلال على الوعي الوظيفي للنماذج اللغوية، أي القدرة على معرفة كيفية التفكير بنفسها. نحن نرى أن النماذج الكبيرة للاستدلال تعاني من نقص في هذه الخاصية، وذلك من خلال إثبات وجود انحراف شديد بين التدفقات الحقيقية (true rollouts) والمعلومات الوظيفية المتوقعة. ونفترض أن محاذاة التنبؤ الوظيفي مع التدفقات الحقيقية ستنتج تحسينات كبيرة في الأداء. وللتحقق من هذا الفرض، قمنا بتصميم مسار تدريب يعزز الوعي الوظيفي من خلال التحديد الذاتي (MASA)، وثبتنا أن تحسين الوعي الوظيفي يترجم مباشرة إلى دقة أعلى. على عكس النماذج الحالية للاستدلال الوظيفي، لا يعتمد منهجنا على مصادر تدريب خارجية، بل يستخدم إشارات مولدة ذاتيًا لتدريب الوعي الوظيفي. علاوة على ذلك، يتيح منهجنا تدريبًا فعّالًا من خلال: (أ) تصفية المحفزات ذات التباين الصفري، التي تكون إما بسيطة جدًا أو غير قابلة للحل؛ و(ب) إنهاء التدفقات الطويلة عندما يكون من غير المرجح أن تؤدي إلى إجابات صحيحة. وأظهرت النتائج نتائج واعدة: فاستراتيجيتنا تحقق تحسينات كبيرة في الدقة وكفاءة التدريب على المهام ضمن المجال (in-domain)، كما تُظهر قدرة قوية على التعميم على المعايير خارج المجال (out-of-domain). وبشكل أكثر تحديدًا، يمكن لمنهجنا تسريع تدريب GRPO بمقدار أكثر من 1.28 مرة للوصول إلى نفس الأداء، وتحقيق مكسب بنسبة 19.3٪ في الدقة على AIME25، ومكسب متوسط بنسبة 6.2٪ على ستة معايير رياضية. كما أن التدريب بمرافقة واعية وظيفيًا يعزز التعميم خارج المجال، حيث يوفر مكسبًا بنسبة 3.87٪ على GPQA-Diamond، ومكسبًا عامًا بنسبة 2.08٪ في الدقة على 13 معيارًا تشمل المجالات المنطقية والعلمية والبرمجة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.