الملخص

تُعاني نماذج اللغة الكبيرة (LLMs) التي تُدرَّب على التفكير التدريجي من تكرار مفرط في الإخراج، ما يؤدي إلى ارتفاع تكاليف الاستدلال. تُقلل أنظمة التعلم بالتعزيز القياسي مع مكافآت قابلة للتحقق (RLVR) من "المشكلات السهلة" خلال مرحلة التدريب لتحسين الكفاءة، ما يُجبر النموذج على التدريب بشكل رئيسي على المشكلات الصعبة التي تتطلب سلاسل تفكير أطول. يؤدي هذا إلى تحريف توزيع طول المخرجات نحو الزيادة، ما يُنتج نموذجًا يخلط بين "التفكير لفترة أطول" و"التفكير بشكل أفضل". في هذا العمل، نُظهر أن الاحتفاظ ببعض المشكلات متوسطة الصعوبة وزيادة وزنها بشكل معتدل يعمل كمُنظِّم ضمني لطول المخرجات. وعند عرض النموذج على مهام قصيرة قابلة للحل، يُحدَّد توزيع مخرجاته ويُمنع تفاقم التكرار. النتيجة هي: بُطَّةٌ مُتَوَلِّدَةٌ مجانًا (emergent brevity for free): يتعلم النموذج حل المشكلات الصعبة دون زيادة طول المخرجات، بالرغم من غياب أي عقوبة صريحة على الطول. أظهرت تجارب RLVR باستخدام هذا النهج على نموذج Qwen3-4B-Thinking-2507 (بحدٍّ أقصى 16 ألف رمز) تحقيق دقة Baseline Pass@1 في مسابقة AIME25، مع إنتاج حلول متوسطة الطول تُقلص بنحو الضعف مقارنةً بالطريقة التقليدية. يُمكن الاطلاع على الكود على منصة GitHub: https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}، مع توفر المجموعات والأنماط على Hugging Face: https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

أقصر ولكن ليس أسوأ: استنتاج اقتصادي من خلال العينات السهلة كمُعدِّلات طولية في التعلُّم الرياضي المُتَعَلِّق بالذكاء الاصطناعي

Abdelaziz Bounhar Hadi Abdine Evan Dufraisse Ahmad Chamma Amr Mohamed Dani Bouch Michalis Vazirgiannis Guokan Shang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

أقصر ولكن ليس أسوأ: استنتاج اقتصادي من خلال العينات السهلة كمُعدِّلات طولية في التعلُّم الرياضي المُتَعَلِّق بالذكاء الاصطناعي

Abdelaziz Bounhar Hadi Abdine Evan Dufraisse Ahmad Chamma Amr Mohamed Dani Bouch Michalis Vazirgiannis Guokan Shang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

أقصر ولكن ليس أسوأ: استنتاج اقتصادي من خلال العينات السهلة كمُعدِّلات طولية في التعلُّم الرياضي المُتَعَلِّق بالذكاء الاصطناعي

Abdelaziz Bounhar Hadi Abdine Evan Dufraisse Ahmad Chamma Amr Mohamed Dani Bouch Michalis Vazirgiannis Guokan Shang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters