HyperAIHyperAI
منذ 2 أشهر

s1: التوسيع البسيط في وقت الاختبار

Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, Tatsunori Hashimoto
s1: التوسيع البسيط في وقت الاختبار
الملخص

التوسيع في وقت الاختبار هو نهج واعد جديد في نمذجة اللغة يستخدم حسابات إضافية في وقت الاختبار لتحسين الأداء. مؤخرًا، أظهرت نموذج o1 من OpenAI هذه القدرة ولكنها لم تشارك منهجيتها علنًا، مما أدى إلى العديد من الجهود لإعادة إنتاجها. نسعى للوصول إلى أبسط النهج لتحقيق التوسيع في وقت الاختبار والأداء القوي في الاستدلال. أولاً، قمنا بجمع مجموعة بيانات صغيرة s1K تتضمن 1,000 سؤال مرتبط بمسارات استدلالية تعتمد على ثلاثة معايير أثبتنا صحتها عبر التجارب الانحلالية: الصعوبة، التنوع، والجودة. ثانيًا، طورنا تقنية الإجبار المالي (budget forcing) لتحكم الحسابات في وقت الاختبار عن طريق إنهاء عملية التفكير للنموذج بشكل قسري أو تمديدها بإضافة كلمة "انتظر" (Wait) عدة مرات إلى توليد النموذج عندما يحاول الإنهاء. يمكن أن يؤدي هذا إلى دفع النموذج للتحقق مرة أخرى من إجابته، غالبًا ما يصلح خطوات الاستدلال الخاطئة. بعد التحسين الرقابي لنموذج Qwen2.5-32B-Instruct على s1K وتزويده بالإجبار المالي، تفوق نموذجنا s1 على o1-preview بنسبة تصل إلى 27% في أسئلة الرياضيات التنافسية (MATH و AIME24). بالإضافة إلى ذلك، يسمح توسيع s1 باستخدام الإجبار المالي بالاستقراء خارج أدائه دون تدخل في وقت الاختبار: من 50% إلى 57% على AIME24. يتم توفير نموذجنا ومجموعتنا البيانات وكود البرمجيات كمصدر مفتوح على https://github.com/simplescaling/s1.