HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أيام

CapRL: تحفيز القدرات المكثفة في التسمية الصورية من خلال التعلم المعزز

Long Xing Xiaoyi Dong Yuhang Zang Yuhang Cao Jianze Liang Qidong Huang Jiaqi Wang Feng Wu Dahua Lin

CapRL: تحفيز القدرات المكثفة في التسمية الصورية من خلال التعلم المعزز

الملخص

يُعدّ تسمية الصور مهمة أساسية تربط بين المجالات البصرية واللغوية، ويلعب دورًا حاسمًا في التدريب المسبق لنموذج الرؤية واللغة الكبير (LVLM). وعادةً ما يتم تدريب النماذج الحالية الأفضل في هذا المجال باستخدام التدريب الدقيق المُراقب (SFT)، وهو نموذج يعتمد على بيانات مُعلّمة بتكلفة عالية وليست قابلة للتوسع، إما بواسطة بشر أو نماذج مملوكة. يؤدي هذا النهج غالبًا إلى نماذج تتذكّر إجابات محددة صحيحة، مما يحد من قدرتها على التعميم وقدرتها على إنتاج وصفات متنوعة وابتكارية. وللتغلب على قيود SFT، نقترح تطبيق نموذج التعلم بالتعزيز مع مكافآت قابلة للتحقق (RLVR) على المهمة المفتوحة لوصف الصور. لكن التحدي الرئيسي يكمن في تصميم دالة مكافأة موضوعية لطبيعة المُصطلح "وصف جيد" التي تُعد ذاتية بطبيعتها. نقدّم إطارًا تدريبيًا جديدًا يُسمى التعلم بالتعزيز لوصف الصور (CapRL)، الذي يعيد تعريف جودة الوصف من خلال فعاليته: فوصف عالي الجودة يجب أن يمكّن نموذج لغوي غير بصري من الإجابة بدقة على أسئلة تتعلق بالصورة المقابلة. يعتمد CapRL على نموذج متسلسل مُفصَّل مكوّن من مرحلتين، حيث يُولِّد نموذج LVLM وصفًا، وتُستخلص المكافأة الموضوعية من دقة نموذج لغوي منفصل وبدون رؤية في الإجابة على أسئلة متعددة الخيارات، بناءً فقط على هذا الوصف. وبكونه الدراسة الأولى التي تطبّق RLVR على مهمة وصف الصور ذات الطابع الذاتي، نُظهر أن CapRL يُحسّن الأداء بشكل ملحوظ في عدة بيئات. فعند التدريب المسبق على مجموعة بيانات وصفات CapRL-5M التي تم تسميتها بواسطة CapRL-3B، تُسجّل مكاسب كبيرة عبر 12 معيارًا. علاوةً على ذلك، داخل إطار Prism لتقييم جودة الوصف، يُحقّق CapRL أداءً مماثلًا لنموذج Qwen2.5-VL-72B، مع تفوقه على النموذج الأساسي بمتوسط 8.4%.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
CapRL: تحفيز القدرات المكثفة في التسمية الصورية من خلال التعلم المعزز | الأوراق البحثية | HyperAI