HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 8 أيام

MarsRL: تطوير نظام التفكير متعدد الوكلاء من خلال التعلم التعزيزي مع التوازي الأنبوبية الوكيلة

Shulin Liu Dong Du Tao Yang Yang Li Boyu Qiu

MarsRL: تطوير نظام التفكير متعدد الوكلاء من خلال التعلم التعزيزي مع التوازي الأنبوبية الوكيلة

الملخص

أُسهم التقدم الأخير في نماذج اللغة الكبيرة (LLMs) بفضل التعلم بالتعزيز مع المكافآت القابلة للتحقق (RLVR) وتمديد الأداء عند وقت الاختبار. ومع ذلك، فإن الحد المفروض على طول الإخراج في نماذج اللغة الكبيرة يقيد العمق الذي يمكن تحقيقه في عملية استنتاج واحدة. وتُعد أنظمة الاستدلال متعددة الوكلاء بديلًا واعدًا، حيث تستخدم عدة وكلاء مثل "المُحلّل"، و"المُقيّم"، و"المُصحّح"، لإعادة تحسين الحلول بشكل تكراري. وعلى الرغم من فعاليتها في النماذج المغلقة المصدر مثل Gemini 2.5 Pro، إلا أنها تواجه صعوبات في التعميم على النماذج المفتوحة المصدر بسبب ضعف قدرات المُقيّم والمُصحّح. ولحل هذه المشكلة، نقترح "MarsRL"، إطارًا جديدًا للتعلم بالتعزيز يعتمد على التوازي في خط أنابيب الوكلاء، مصممًا لتحسين جميع الوكلاء في النظام بشكل مشترك. ويُدخل MarsRL آليات مكافآت مخصصة لكل وكيل لتقليل الضوضاء في المكافآت، واستخدام تقنية تدريب مستوحاة من التسلسل (pipeline-inspired training) لتعزيز الكفاءة في التعامل مع المسارات الطويلة. عند تطبيقه على نموذج Qwen3-30B-A3B-Thinking-2507، حقق MarsRL تحسنًا في دقة AIME2025 من 86.5% إلى 93.3%، وفي دقة BeyondAIME من 64.9% إلى 73.8%، حتى تفوق نموذج Qwen3-235B-A22B-Thinking-2507. وتُبرز هذه النتائج الإمكانات الكبيرة لـ MarsRL في تطوير أنظمة الاستدلال متعددة الوكلاء، وتوسيع نطاق تطبيقها على مهام استدلال متنوعة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MarsRL: تطوير نظام التفكير متعدد الوكلاء من خلال التعلم التعزيزي مع التوازي الأنبوبية الوكيلة | الأوراق البحثية | HyperAI