Command Palette
Search for a command to run...
Dulhan Jayalath Shashwat Goel Thomas Foster Parag Jain Suchin Gururangan et al

الملخص
من أين تأتي إشارات التعلم عندما لا توجد حقيقة أساسية (Ground Truth) بعد التدريب؟ نقترح تحويل الاستكشاف إلى إشراف من خلال نموذج "الحساب كمُعلّم" (Compute as Teacher, CaT)، الذي يحوّل استكشاف النموذج نفسه أثناء التشغيل (inference-time) إلى إشراف غير مبني على مرجعية، وذلك من خلال توليد مرجع واحد من مجموعة من التسلسلات المتوازية (parallel rollouts)، ثم التحسين نحو هذا المرجع. بشكل محدد، يُنتج السياسة الحالية مجموعة من التسلسلات؛ ويُستخدم نموذج "المرجع الثابت" (السياسة الأولية) لتسوية النواقص والتناقضات وتقدير المرجع، مما يحوّل الحوسبة الإضافية أثناء التشغيل إلى إشارة معلّم. نحوّل هذه الإشارة إلى مكافآت في حالتين: (أ) المهام القابلة للتحقق تستخدم التكافؤ البرمجي في الإجابات النهائية؛ (ب) المهام غير القابلة للتحقق تستخدم معايير ذاتية مقترحة من النموذج — وهي معايير ثنائية قابلة للتدقيق — تُقيّمها لجنة مُحكّمة مستقلة (LLM مستقل) وتُحسب المكافأة بناءً على النسبة المحققة من هذه المعايير. على عكس الطرق التقليدية للاختيار (مثل أفضل نموذج من بين N، أو الأغلبية، أو مفهوم التباس النموذج، أو درجات المُحكّمين)، فإن طريقة التركيب (synthesis) قد تختلف عن الأغلبية، وقد تكون صحيحة حتى عندما تكون جميع التسلسلات خاطئة؛ كما أن الأداء يتحسن مع زيادة عدد التسلسلات. باعتبارها إجراءً يتم في وقت الاختبار (test-time)، يُحسّن CaT أداء نماذج Gemma 3 4B وQwen 3 4B وLlama 3.1 8B (بزيادة تصل إلى +27% على MATH-500، و+12% على HealthBench). وبالاعتماد على التعلم المعزز (CaT-RL)، نحقق مكاسب إضافية (تصل إلى +33% و+30%)، حيث يتجاوز السياسة المدربة إشارة المعلّم الأولية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.