HyperAI
منذ 3 أيام

VL-Cogito: التعلم المعزز التدريجي بالمناهج لاستنتاج متعدد الوسائط المتقدمة

Ruifeng Yuan, Chenghao Xiao, Sicong Leng, Jianyu Wang, Long Li, Weiwen Xu, Hou Pong Chan, Deli Zhao, Tingyang Xu, Zhongyu Wei, Hao Zhang, Yu Rong
VL-Cogito: التعلم المعزز التدريجي بالمناهج لاستنتاج متعدد الوسائط المتقدمة
الملخص

أثبتت التعلم المعزز فعاليته في تعزيز قدرات الاستدلال النموذجات اللغوية الكبيرة. وقد تمددت الجهود البحثية الحديثة تدريجيًا على هذا النموذج لتشمل مهام الاستدلال متعدد الوسائط. وبسبب التعقيد والتنوع المتأصّل في المهام متعددة الوسائط، خاصة فيما يتعلق بالمحتوى الدلالي وصيغة المشكلات، تُظهر النماذج الحالية أداءً غير مستقر عبر مجالات متنوعة ومستويات صعوبة مختلفة. وللتغلب على هذه القيود، نقترح نموذج VL-Cogito، وهو نموذج متعدد الوسائط متقدّم تم تدريبه باستخدام إطار جديد يُسمى التعلم المعزز التدريجي بالمناهج المتعددة (PCuRL). ويُوجّه إطار PCuRL النموذج بشكل منهجي عبر مهام تزداد صعوبتها تدريجيًا، مما يُحسّن بشكل كبير قدرته على الاستدلال في سياقات متعددة الوسائط المتنوعة. ويُقدّم هذا الإطار Innovations رئيسية: (1) آلية ترجيح ديناميكية للصعوبة عبر الإنترنت، التي تُعدّل بشكل ديناميكي صعوبة التدريب في المراحل التالية من التعلم المعزز؛ و(2) آلية مكافأة مرنة الطول، التي تشجع النموذج على تعديل مسار الاستدلال تلقائيًا وفقًا لتعقيد المهمة، وبالتالي تحقيق توازن بين كفاءة الاستدلال ودقة النتائج. وتبين النتائج التجريبية أن VL-Cogito يتفوّق باستمرار أو يوازي النماذج الحالية الموجهة للاستدلال عبر معايير متعددة الوسائط الشائعة التي تغطي مجالات الرياضيات والعلوم والمنطق والفهم العام، مما يُثبت فعالية النهج المُقترح.