HyperAIHyperAI

Command Palette

Search for a command to run...

ParaVT: كبح مفارقة سابقة الأداة للاستخدام المتوازي للأدوات في التعلم التعزيزي الفيديووكلي الوكيل

Zuhao Yang Kaichen Zhang Sudong Wang Keming Wu Zhongyu Yang Bo Li Xiaojuan Qi Shijian Lu Xingxuan Li Lidong Bing

الملخص

العنوان: [غير محدد]الملخص: يُعد تدريب النماذج متعددة الوسائط الكبيرة (LMMs) باستخدام التعلم التعزيزي (RL) لاستدعاء أدوات معالجة الفيديو بشكل أصلي (مثل القص) مساراً واعداً لفهم الفيديوهات طويلة المدة. ومع ذلك، تقوم الأساليب الحالية القائمة على التعلم التعزيزي الأصلي بإرسال استدعاءات الأدوات بشكل تسلسلي (أي استدعاء واحد لكل دور): حيث يؤدي خطأ قص واحد إلى انتشار الأخطاء دون تصحيح من الأقران، وتؤدي استدعاءات الأدوات متعددة الأدوار إلى تشويه السياق، وتتزايد تكلفة الاستدلال خطياً مع عدد الأدوار. نقدم ParaVT، وهو الإطار الأول المدرب بالتعلم التعزيزي من البداية للنهاية باستخدام وكلاء متعددين لاستدعاء أدوات الفيديو بالتوازي، حيث يقوم بإرسال عدة قصات لنوافذ زمنية مختلفة في دور واحد، مما يوفر سياقاً أنظف وتحملاً أفضل للأخطاء. ومع ذلك، يكشف تطبيق التعلم التعزيزي القياسي على ParaVT عن عائق نسميه «مفارقة أولوية الأدوات»: فأولويات الأدوات المدربة مسبقاً، التي تتيح استكشاف الأدوات، تؤدي أيضاً إلى زعزعة استقرار التنسيق الهيكلي عند البدء البارد، وتكشف عن مسار المكافأة القصير لتخطي الأدوات تحت عينة درجة الحرارة. يدعم هذا الادعاء مقارنة عبر النماذج باستخدام نموذج LMM ذي أولويات أضعف: حيث يبقى التنسيق مستقراً، لكن التعلم التعزيزي يولد صفراً من استدعاءات الأدوات، مما يشير إلى أن قوة الأولوية هي المحرك المشترك لانهيار التنسيق واستكشاف الأدوات. نقترح PARA-GRPO (Parseability-Anchored and Ratio-gAted GRPO)، والذي يعزز التعلم التعزيزي القياسي بآليتين متكاملتين: (i) مكافأة تنسيق مستهدفة تُطبق فقط عند مواضع الرموز الهيكلية الأكثر عرضة للانهيار، و(ii) عشوائية ميزانية الإطارات لكل موجه (prompt) تخلق موجهات تدريبية يؤدي فيها استدعاء الأداة إلى إشارة مكافأة قابلة للقياس مقارنة بتخطيها. عبر ستة معايير لفهم الفيديوهات طويلة المدة، يحسن ParaVT من الأداء مقارنة بخط الأساس Qwen3-VL بنسبة +7.9% في المتوسط، مع رفع PARA-GRPO لامتثال التنسيق أثناء التدريب من 0.13 إلى 0.64. ومع تزايد دمج قدرات الأدوات بشكل متعمق في نماذج LMM الحديثة، يجب أن يتعاون التعلم التعزيزي مع الأولويات الناتجة، ويقدم ParaVT وصفة عامة للتعلم التعزيزي الوكي. الكود والبيانات وأوزان النموذج متاحة للجمهور.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp