HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

احسب كمعلم: تحويل الحساب أثناء الاستنتاج إلى إشراف بدون مرجع

Dulhan Jayalath Shashwat Goel Thomas Foster Parag Jain Suchin Gururangan et al

احسب كمعلم: تحويل الحساب أثناء الاستنتاج إلى إشراف بدون مرجع

الملخص

من أين تأتي إشارات التعلم عندما لا توجد حقيقة أساسية (Ground Truth) بعد التدريب؟ نقترح تحويل الاستكشاف إلى إشراف من خلال نموذج "الحساب كمُعلّم" (Compute as Teacher, CaT)، الذي يحوّل استكشاف النموذج نفسه أثناء التشغيل (inference-time) إلى إشراف غير مبني على مرجعية، وذلك من خلال توليد مرجع واحد من مجموعة من التسلسلات المتوازية (parallel rollouts)، ثم التحسين نحو هذا المرجع. بشكل محدد، يُنتج السياسة الحالية مجموعة من التسلسلات؛ ويُستخدم نموذج "المرجع الثابت" (السياسة الأولية) لتسوية النواقص والتناقضات وتقدير المرجع، مما يحوّل الحوسبة الإضافية أثناء التشغيل إلى إشارة معلّم. نحوّل هذه الإشارة إلى مكافآت في حالتين: (أ) المهام القابلة للتحقق تستخدم التكافؤ البرمجي في الإجابات النهائية؛ (ب) المهام غير القابلة للتحقق تستخدم معايير ذاتية مقترحة من النموذج — وهي معايير ثنائية قابلة للتدقيق — تُقيّمها لجنة مُحكّمة مستقلة (LLM مستقل) وتُحسب المكافأة بناءً على النسبة المحققة من هذه المعايير. على عكس الطرق التقليدية للاختيار (مثل أفضل نموذج من بين N، أو الأغلبية، أو مفهوم التباس النموذج، أو درجات المُحكّمين)، فإن طريقة التركيب (synthesis) قد تختلف عن الأغلبية، وقد تكون صحيحة حتى عندما تكون جميع التسلسلات خاطئة؛ كما أن الأداء يتحسن مع زيادة عدد التسلسلات. باعتبارها إجراءً يتم في وقت الاختبار (test-time)، يُحسّن CaT أداء نماذج Gemma 3 4B وQwen 3 4B وLlama 3.1 8B (بزيادة تصل إلى +27% على MATH-500، و+12% على HealthBench). وبالاعتماد على التعلم المعزز (CaT-RL)، نحقق مكاسب إضافية (تصل إلى +33% و+30%)، حيث يتجاوز السياسة المدربة إشارة المعلّم الأولية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
احسب كمعلم: تحويل الحساب أثناء الاستنتاج إلى إشراف بدون مرجع | الأوراق البحثية | HyperAI