HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

VerlTool: نحو التعلم المعزز الواعي الشامل باستخدام الأدوات

VerlTool: نحو التعلم المعزز الواعي الشامل باستخدام الأدوات

الملخص

لقد أظهرت التعلم بالتعزيز مع مكافآت قابلة للتحقق (RLVR) نجاحًا في تحسين قدرات التفكير لدى النماذج اللغوية الكبيرة (LLM)، لكنها ما زالت محدودة بالتفاعلات أحادية الدور دون دمج أدوات. في حين ظهرت مؤخرًا مناهج التعلم بالتعزيز العامل مع استخدام الأدوات (ARLT) لمعالجة التفاعلات متعددة الدورات باستخدام الأدوات، فإن الأعمال الحالية تُطور قواعد كود مخصصة لكل مهمة، مما يؤدي إلى تجزؤ النظام، وعوائق في التنفيذ المتزامن، وامتداد محدود عبر المجالات. وتُعيق هذه الفجوات الكفاءة التبني الشامل من قبل المجتمع البحثي، وتعوق الابتكار الخوارزمي. نقدم في هذا العمل إطارًا موحدًا وقابلًا للتركيب يُسمى VerlTool، والذي يعالج هذه القيود من خلال مبادئ تصميم منهجية. يقدّم VerlTool أربع مساهمات رئيسية: (1) محاذاة علوية مع VeRL، مما يضمن التوافق ويسهّل الصيانة، (2) إدارة موحدة للأدوات عبر واجهات برمجة تطبيقات (APIs) معيارية تدعم أنماطًا متنوعة، بما في ذلك تنفيذ الشيفرات، والبحث، وقواعد بيانات SQL، ومعالجة الرؤية، (3) تنفيذ مسارات مُستمَرّة غير متزامنة، مما يحقق تسريعًا يقارب الضعف من خلال القضاء على عقد التزامن، و(4) تقييم شامل يُظهر أداءً تنافسيًا عبر 6 مجالات من ARLT. يُعَرِّف إطارنا ARLT كمسارات متعددة الدورات تتضمن رموز ملاحظات متعددة الوسائط (نص/صورة/فيديو)، ممّا يتجاوز النماذج أحادية الدور في RLVR. نُدرّب ونُقيّم النماذج على مهام التفكير الرياضي، وأسئلة المعرفة (QA)، وإنشاء أوامر SQL، والتفكير البصري، والبحث عبر الويب، وهندسة البرمجيات، ونحقق نتائج تُقارن بالنظم المتخصصة، مع توفير بنية تدريب موحدة. كما يتيح الهيكل المعياري القابل للتركيب دمج أدوات بسرعة، ما يتطلب فقط تعريفات بسيطة بلغة بايثون، مما يقلل بشكل كبير من عبء التطوير، ويُوفّر أساسًا قابلاً للتوسع لأبحاث التعلم بالتعزيز المُعزّز بالأدوات. تم إتاحة الكود المصدر للإطار على الرابط التالي: https://github.com/TIGER-AI-Lab/verl-tool.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp