Command Palette
Search for a command to run...

الملخص
تتعرض نماذج الرؤية واللغة (VLMs) غالبًا لحالات وهم بصري، حيث تُصدر عبارات لا تتوافق مع محتوى الصورة الفعلية، وكذلك لاستخدام اختصارات لغوية، حيث تتجاهل الجزء البصري تمامًا وتستند فقط إلى المعرفة السابقة المكتوبة. تنشأ هذه المشكلات لأن معظم الطرق المستخدمة في التدريب اللاحق للنماذج VLM تعتمد على مطابقة الإجابات البسيطة القابلة للتحقق، وتُراعي فقط النواتج النهائية، مما يترك التفكير البصري المتوسط دون إشراف صريح. ونتيجة لذلك، تتلقى نماذج VLM إشارات بصرية محدودة، وغالبًا ما تتعلم تفضيل التفكير القائم على اللغة على التمثيل البصري. ولتخفيف هذه المشكلة، تُستخدم بعض الطرق الحالية إشرافًا بصريًا من خلال ملاحظات بشرية أو تسميات مُستخلصة من نماذج كبيرة خارجية. لكن الملاحظات البشرية تتطلب جهدًا كبيرًا وتكاليف باهظة، كما أن الإشارات الخارجية لا يمكنها التكيف مع التغيرات في السياسة، مما يؤدي إلى انزياحات في التوزيع قد تؤدي إلى ما يُعرف بـ "اختراق المكافأة" (reward hacking). في هذا البحث، نقدم نموذج Vision-SR1، وهو طريقة ذات مكافأة ذاتية تعزز التفكير البصري دون الاعتماد على إشراف بصري خارجي، وذلك باستخدام التعلم المعزز. يقوم Vision-SR1 بتفكيك عملية التفكير في نموذج VLM إلى مرحلتين: التمثيل البصري والتفكير اللغوي. تُحَفَّز النموذج أولًا لإنتاج تمثيلات بصرية ذاتية التكامل، تكون كافية لتقديم إجابة على السؤال دون الحاجة إلى الرجوع إلى الصورة الأصلية. ثم، لتأكيد هذه الصفة الذاتية، يُعاد توجيه نفس النموذج VLM لإجراء التفكير اللغوي باستخدام فقط التمثيل المُولَّد كمدخل لحساب المكافأة. وتُدمج هذه المكافأة الذاتية مع الإشراف على النواتج النهائية، مما يوفر إشارة تدريب متوازنة تعزز كلًا من التمثيل البصري والتفكير اللغوي. تُظهر تجاربنا أن Vision-SR1 يُحسّن التفكير البصري، ويقلل من حالات الوهم البصري، ويقلل الاعتماد على الاختصارات اللغوية عبر مجموعة متنوعة من المهام المتعلقة بالرؤية واللغة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.