HyperAIHyperAI

Command Palette

Search for a command to run...

s1: تكبير بسيط في وقت الاختبار

Niklas Muennighoff Zitong Yang Weijia Shi Xiang Lisa Li Li Fei-Fei Hannaneh Hajishirzi Luke Zettlemoyer Percy Liang Emmanuel Candès Tatsunori Hashimoto

الملخص

يُعدّ التوسيع في وقت الاختبار (Test-time scaling) نهجًا واعدًا جديدًا في نمذجة اللغة، حيث يُستخدَم حساب إضافي في وقت الاختبار لتحسين الأداء. ومؤخرًا، أظهر نموذج o1 من OpenAI هذه القدرة، لكنه لم يُشَرْكْ منهجيته بشكل علني، ما دفع إلى ظهور العديد من المحاولات المُحاكية. ونهدف إلى اعتماد أبسط المنهجيات لتحقيق التوسيع في وقت الاختبار وأداء قوي في التفكير المنطقي. أولاً، نُعدّ مجموعة بيانات صغيرة بحجم 1,000 سؤال (s1K)، مزودة بسلاسل تفكير مُرَتَّبة، ونعتمد على ثلاث معايير تم التحقق منها من خلال تحليلات التبديل (ablations): الصعوبة، والتنوع، والجودة. ثانيًا، نطوّر تقنية "فرض الميزانية" (budget forcing)، التي تُستخدم للتحكم في الحسابات في وقت الاختبار من خلال إنهاء قسري لعملية تفكير النموذج، أو تطويلها عن طريق إضافة عبارة "انتظر" (Wait) عدة مرات عند محاولة النموذج إنهاء إنتاجه. تُمكّن هذه الطريقة النموذج من مراجعة إجابته، وغالبًا ما تُصلح الخطوات الخاطئة في التفكير. وبعد تدريب مُوجَّه (supervised finetuning) لنموذج Qwen2.5-32B-Instruct على مجموعة s1K، وتمكينه بآلية فرض الميزانية، تفوق نموذجنا s1 على نموذج o1-preview في أسئلة الرياضيات التنافسية بنسبة تصل إلى 27% (على مجموعتي MATH وAIME24). علاوةً على ذلك، يُمكِّن التوسيع المُنَفَّذ عبر فرض الميزانية من التمديد خارج الأداء المُحَدَّد دون الحاجة إلى تدخل في وقت الاختبار: من 50% إلى 57% على AIME24. ونُعَلِّم نموذجنا وبياناتنا وشفرة البرمجة مفتوحة المصدر عبر الرابط: https://github.com/simplescaling/s1.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp