Agent0-VL: استكشاف الوكيل الذاتي المُتَطَوِّر للتفكير البصري-اللغوي المُدمَج بالأدوات
Jiaqi Liu Kaiwen Xiong Peng Xia Yiyang Zhou Haonian Ji Lu Feng Siwei Han Mingyu Ding Huaxiu Yao

الملخص
لقد حققت الوكالات البصرية-اللغوية تقدماً ملحوظاً في مجموعة متنوعة من المهام الاستدلالية متعددة الوسائط؛ ومع ذلك، يظل تعلّمها محدوداً بسبب قيود الإشراف المُعدّل يدويًا من قبل البشر. حاولت النماذج ذات المكافأة الذاتية الحديثة التغلب على هذا التقييد من خلال تمكين النماذج من أن تؤدي دور الناقد أو مزود المكافأة بنفسها. ومع ذلك، فإن التقييم الذاتي القائم بالكامل على النص يعاني من صعوبة في التحقق من خطوات الاستدلال البصري المعقدة، وغالبًا ما يعاني من تحيّزات تقييمية (تُعرف بـ "الهلوسة التقييمية"). ولحل هذه التحديات، مستوحاة من التطورات الحديثة في الاستدلال المدمج بالأدوات، نقترح Agent0-VL، وهو وكيل بصري-لغوي ذاتي التطور يحقق تحسينًا مستمرًا من خلال الاستدلال المدمج بالأدوات. يدمج Agent0-VL استخدام الأدوات ليس فقط في عملية الاستدلال، بل أيضًا في التقييم الذاتي والإصلاح الذاتي، مما يمكّن النموذج من التأمل الداخلي، والتحقق، وتحسين استدلاله من خلال تحليل مدعوم بالأدلة. ويُوحّد هذا النموذج دورين متكاملين ومتآزرين ضمن نموذج لغوي-بصري واحد (LVLM): دور "المُحلّل" (Solver) الذي يُنفّذ الاستدلال متعدد الدورات المدمج بالأدوات، ودور "المحقق" (Verifier) الذي يُولّد ملاحظات منظمة ومكافآت ذات دقة عالية من خلال نقد مدعوم بالأدوات. وتتفاعل هذه الأدوار عبر دورة استدلال ذاتية التطور، حيث تُوجّه التحقق القائم على الأدوات والتعلم بالتعزيز معًا توزيعات الاستدلال والتقييم لتحقيق تحسين ذاتي مستقر. وبفضل هذه العملية التطورية بدون مكافآت خارجية، يتماشى Agent0-VL سلوكه في الاستدلال والتقييم دون الحاجة إلى أي إشراف بشري أو نماذج مكافآت خارجية، مما يحقق تحسينًا ذاتيًا مستمرًا. أظهرت التجارب في حل المشكلات الهندسية والتحليل العلمي البصري تحسنًا بنسبة 12.5% مقارنة بالنموذج الأساسي. يمكن الوصول إلى الكود الخاص بنا عبر الرابط التالي: https://github.com/aiming-lab/Agent0/Agent0-VL
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.