منذ 2 أشهر

نموذج بصري لغوي ذاتي المكافأة من خلال تحليل الاستدلال

Zongxia Li Wenhao Yu Chengsong Huang Rui Liu Zhenwen Liang Fuxiao Liu Jingxi Che Dian Yu Jordan Boyd-Graber Haitao Mi

الملخص

تتعرض نماذج الرؤية واللغة (VLMs) غالبًا لحالات وهم بصري، حيث تُصدر عبارات لا تتوافق مع محتوى الصورة الفعلية، وكذلك لاستخدام اختصارات لغوية، حيث تتجاهل الجزء البصري تمامًا وتستند فقط إلى المعرفة السابقة المكتوبة. تنشأ هذه المشكلات لأن معظم الطرق المستخدمة في التدريب اللاحق للنماذج VLM تعتمد على مطابقة الإجابات البسيطة القابلة للتحقق، وتُراعي فقط النواتج النهائية، مما يترك التفكير البصري المتوسط دون إشراف صريح. ونتيجة لذلك، تتلقى نماذج VLM إشارات بصرية محدودة، وغالبًا ما تتعلم تفضيل التفكير القائم على اللغة على التمثيل البصري. ولتخفيف هذه المشكلة، تُستخدم بعض الطرق الحالية إشرافًا بصريًا من خلال ملاحظات بشرية أو تسميات مُستخلصة من نماذج كبيرة خارجية. لكن الملاحظات البشرية تتطلب جهدًا كبيرًا وتكاليف باهظة، كما أن الإشارات الخارجية لا يمكنها التكيف مع التغيرات في السياسة، مما يؤدي إلى انزياحات في التوزيع قد تؤدي إلى ما يُعرف بـ "اختراق المكافأة" (reward hacking). في هذا البحث، نقدم نموذج Vision-SR1، وهو طريقة ذات مكافأة ذاتية تعزز التفكير البصري دون الاعتماد على إشراف بصري خارجي، وذلك باستخدام التعلم المعزز. يقوم Vision-SR1 بتفكيك عملية التفكير في نموذج VLM إلى مرحلتين: التمثيل البصري والتفكير اللغوي. تُحَفَّز النموذج أولًا لإنتاج تمثيلات بصرية ذاتية التكامل، تكون كافية لتقديم إجابة على السؤال دون الحاجة إلى الرجوع إلى الصورة الأصلية. ثم، لتأكيد هذه الصفة الذاتية، يُعاد توجيه نفس النموذج VLM لإجراء التفكير اللغوي باستخدام فقط التمثيل المُولَّد كمدخل لحساب المكافأة. وتُدمج هذه المكافأة الذاتية مع الإشراف على النواتج النهائية، مما يوفر إشارة تدريب متوازنة تعزز كلًا من التمثيل البصري والتفكير اللغوي. تُظهر تجاربنا أن Vision-SR1 يُحسّن التفكير البصري، ويقلل من حالات الوهم البصري، ويقلل الاعتماد على الاختصارات اللغوية عبر مجموعة متنوعة من المهام المتعلقة بالرؤية واللغة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

نموذج بصري لغوي ذاتي المكافأة من خلال تحليل الاستدلال

Zongxia Li Wenhao Yu Chengsong Huang Rui Liu Zhenwen Liang Fuxiao Liu Jingxi Che Dian Yu Jordan Boyd-Graber Haitao Mi1 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters

Zongxia Li Wenhao Yu Chengsong Huang Rui Liu Zhenwen Liang Fuxiao Liu Jingxi Che Dian Yu Jordan Boyd-Graber Haitao Mi