HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

نموذج بصري لغوي ذاتي المكافأة من خلال تحليل الاستدلال

نموذج بصري لغوي ذاتي المكافأة من خلال تحليل الاستدلال

الملخص

تتعرض نماذج الرؤية واللغة (VLMs) غالبًا لحالات وهم بصري، حيث تُصدر عبارات لا تتوافق مع محتوى الصورة الفعلية، وكذلك لاستخدام اختصارات لغوية، حيث تتجاهل الجزء البصري تمامًا وتستند فقط إلى المعرفة السابقة المكتوبة. تنشأ هذه المشكلات لأن معظم الطرق المستخدمة في التدريب اللاحق للنماذج VLM تعتمد على مطابقة الإجابات البسيطة القابلة للتحقق، وتُراعي فقط النواتج النهائية، مما يترك التفكير البصري المتوسط دون إشراف صريح. ونتيجة لذلك، تتلقى نماذج VLM إشارات بصرية محدودة، وغالبًا ما تتعلم تفضيل التفكير القائم على اللغة على التمثيل البصري. ولتخفيف هذه المشكلة، تُستخدم بعض الطرق الحالية إشرافًا بصريًا من خلال ملاحظات بشرية أو تسميات مُستخلصة من نماذج كبيرة خارجية. لكن الملاحظات البشرية تتطلب جهدًا كبيرًا وتكاليف باهظة، كما أن الإشارات الخارجية لا يمكنها التكيف مع التغيرات في السياسة، مما يؤدي إلى انزياحات في التوزيع قد تؤدي إلى ما يُعرف بـ "اختراق المكافأة" (reward hacking). في هذا البحث، نقدم نموذج Vision-SR1، وهو طريقة ذات مكافأة ذاتية تعزز التفكير البصري دون الاعتماد على إشراف بصري خارجي، وذلك باستخدام التعلم المعزز. يقوم Vision-SR1 بتفكيك عملية التفكير في نموذج VLM إلى مرحلتين: التمثيل البصري والتفكير اللغوي. تُحَفَّز النموذج أولًا لإنتاج تمثيلات بصرية ذاتية التكامل، تكون كافية لتقديم إجابة على السؤال دون الحاجة إلى الرجوع إلى الصورة الأصلية. ثم، لتأكيد هذه الصفة الذاتية، يُعاد توجيه نفس النموذج VLM لإجراء التفكير اللغوي باستخدام فقط التمثيل المُولَّد كمدخل لحساب المكافأة. وتُدمج هذه المكافأة الذاتية مع الإشراف على النواتج النهائية، مما يوفر إشارة تدريب متوازنة تعزز كلًا من التمثيل البصري والتفكير اللغوي. تُظهر تجاربنا أن Vision-SR1 يُحسّن التفكير البصري، ويقلل من حالات الوهم البصري، ويقلل الاعتماد على الاختصارات اللغوية عبر مجموعة متنوعة من المهام المتعلقة بالرؤية واللغة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نموذج بصري لغوي ذاتي المكافأة من خلال تحليل الاستدلال | الأوراق البحثية | HyperAI