Command Palette
Search for a command to run...
Zetong Zhou Dongping Chen Zixian Ma Zhihan Hu Mingyang Fu Sinan Wang Yao Wan Zhou Zhao Ranjay Krishna

الملخص
الاستدلال البصري، الذي يُعدّ حجر الزاوية في الذكاء البشري، يشمل عمليات إدراكية ومنطقية معقدة ضرورية لحل مجموعة متنوعة من المشكلات البصرية. وعلى الرغم من التقدم المحرز في مجال رؤية الحاسوب، الذي أدى إلى تطوير نماذج قوية لأداء مهام إدراكية مختلفة، إلا أن الاستفادة من هذه النماذج في الاستدلال البصري العام لا يزال يشكل تحديًا كبيرًا. وقد أظهرت الدراسات السابقة أن تعزيز نماذج النماذج اللغوية الكبيرة (LLMs) بدمج نماذج بصرية من خلال التدريب المُحدَّد (supervised fine-tuning) يُحسّن الأداء، لكنه يواجه قيودًا جوهرية مثل ارتفاع تكلفة إنتاج البيانات، والاعتماد على تصفية دقيقة للبيانات، وضعف القدرة على التعميم. ولحل هذه المشكلات، نقترح نهج ReVPT، الذي يهدف إلى تعزيز قدرات النماذج اللغوية متعددة الوسائط على الاستدلال واستخدام الأدوات البصرية من خلال التعلم بالتعزيز (Reinforcement Learning). ونقدّم خوارزمية جديدة للتعلم بالتعزيز تعتمد على مبدأ GRPO، مصممة لتدريب النماذج على الاستدلال باستخدام مجموعة من أربع أدوات بصرية. وقد أظهرت التجارب الواسعة التي أجريناها أن منهجنا يحقق أداءً متقدمًا على مستوى الحالة الحالية (state-of-the-art) في عدة معايير تُعدّ ثقيلة من حيث الإدراك، مثل SAT وCV-Bench وBLINK وMMStar، متفوّقًا بشكل ملحوظ على النماذج القائمة على التدريب المُحدَّد وعلى التدريب بالتعزيز القائم على النص. وبشكل ملحوظ، تفوق نماذج ReVPT-3B وReVPT-7B النماذج الموجهة (instruct models) بنسبة 9.03% و9.44% على معيار CV-Bench على التوالي. وأخيرًا، نقدّم للمجتمع معرفة جديدة حول استخدام الأدوات البصرية القائمة على التعلم بالتعزيز، من خلال تحليلات واسعة وشاملة. يُمكن الاطلاع على الكود الخاص بنا عبر الرابط التالي: https://github.com/ls-kelvin/REVPT.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.