HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 20 أيام

أقصر ولكن ليس أسوأ: استنتاج اقتصادي من خلال العينات السهلة كمُعدِّلات طولية في التعلُّم الرياضي المُتَعَلِّق بالذكاء الاصطناعي

Abdelaziz Bounhar Hadi Abdine Evan Dufraisse Ahmad Chamma Amr Mohamed Dani Bouch Michalis Vazirgiannis Guokan Shang

أقصر ولكن ليس أسوأ: استنتاج اقتصادي من خلال العينات السهلة كمُعدِّلات طولية في التعلُّم الرياضي المُتَعَلِّق بالذكاء الاصطناعي

الملخص

تُعاني نماذج اللغة الكبيرة (LLMs) التي تُدرَّب على التفكير التدريجي من تكرار مفرط في الإخراج، ما يؤدي إلى ارتفاع تكاليف الاستدلال. تُقلل أنظمة التعلم بالتعزيز القياسي مع مكافآت قابلة للتحقق (RLVR) من "المشكلات السهلة" خلال مرحلة التدريب لتحسين الكفاءة، ما يُجبر النموذج على التدريب بشكل رئيسي على المشكلات الصعبة التي تتطلب سلاسل تفكير أطول. يؤدي هذا إلى تحريف توزيع طول المخرجات نحو الزيادة، ما يُنتج نموذجًا يخلط بين "التفكير لفترة أطول" و"التفكير بشكل أفضل". في هذا العمل، نُظهر أن الاحتفاظ ببعض المشكلات متوسطة الصعوبة وزيادة وزنها بشكل معتدل يعمل كمُنظِّم ضمني لطول المخرجات. وعند عرض النموذج على مهام قصيرة قابلة للحل، يُحدَّد توزيع مخرجاته ويُمنع تفاقم التكرار. النتيجة هي: بُطَّةٌ مُتَوَلِّدَةٌ مجانًا (emergent brevity for free): يتعلم النموذج حل المشكلات الصعبة دون زيادة طول المخرجات، بالرغم من غياب أي عقوبة صريحة على الطول. أظهرت تجارب RLVR باستخدام هذا النهج على نموذج Qwen3-4B-Thinking-2507 (بحدٍّ أقصى 16 ألف رمز) تحقيق دقة Baseline Pass@1 في مسابقة AIME25، مع إنتاج حلول متوسطة الطول تُقلص بنحو الضعف مقارنةً بالطريقة التقليدية. يُمكن الاطلاع على الكود على منصة GitHub: https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}، مع توفر المجموعات والأنماط على Hugging Face: https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
أقصر ولكن ليس أسوأ: استنتاج اقتصادي من خلال العينات السهلة كمُعدِّلات طولية في التعلُّم الرياضي المُتَعَلِّق بالذكاء الاصطناعي | الأوراق البحثية | HyperAI