منذ شهر واحد

احسب كمعلم: تحويل الحساب أثناء الاستنتاج إلى إشراف بدون مرجع

Dulhan Jayalath Shashwat Goel Thomas Foster Parag Jain Suchin Gururangan et al

الملخص

من أين تأتي إشارات التعلم عندما لا توجد حقيقة أساسية (Ground Truth) بعد التدريب؟ نقترح تحويل الاستكشاف إلى إشراف من خلال نموذج "الحساب كمُعلّم" (Compute as Teacher, CaT)، الذي يحوّل استكشاف النموذج نفسه أثناء التشغيل (inference-time) إلى إشراف غير مبني على مرجعية، وذلك من خلال توليد مرجع واحد من مجموعة من التسلسلات المتوازية (parallel rollouts)، ثم التحسين نحو هذا المرجع. بشكل محدد، يُنتج السياسة الحالية مجموعة من التسلسلات؛ ويُستخدم نموذج "المرجع الثابت" (السياسة الأولية) لتسوية النواقص والتناقضات وتقدير المرجع، مما يحوّل الحوسبة الإضافية أثناء التشغيل إلى إشارة معلّم. نحوّل هذه الإشارة إلى مكافآت في حالتين: (أ) المهام القابلة للتحقق تستخدم التكافؤ البرمجي في الإجابات النهائية؛ (ب) المهام غير القابلة للتحقق تستخدم معايير ذاتية مقترحة من النموذج — وهي معايير ثنائية قابلة للتدقيق — تُقيّمها لجنة مُحكّمة مستقلة (LLM مستقل) وتُحسب المكافأة بناءً على النسبة المحققة من هذه المعايير. على عكس الطرق التقليدية للاختيار (مثل أفضل نموذج من بين N، أو الأغلبية، أو مفهوم التباس النموذج، أو درجات المُحكّمين)، فإن طريقة التركيب (synthesis) قد تختلف عن الأغلبية، وقد تكون صحيحة حتى عندما تكون جميع التسلسلات خاطئة؛ كما أن الأداء يتحسن مع زيادة عدد التسلسلات. باعتبارها إجراءً يتم في وقت الاختبار (test-time)، يُحسّن CaT أداء نماذج Gemma 3 4B وQwen 3 4B وLlama 3.1 8B (بزيادة تصل إلى +27% على MATH-500، و+12% على HealthBench). وبالاعتماد على التعلم المعزز (CaT-RL)، نحقق مكاسب إضافية (تصل إلى +33% و+30%)، حيث يتجاوز السياسة المدربة إشارة المعلّم الأولية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

احسب كمعلم: تحويل الحساب أثناء الاستنتاج إلى إشراف بدون مرجع

Dulhan Jayalath Shashwat Goel Thomas Foster Parag Jain Suchin Gururangan et al

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters