HyperAI

الاسترجاع الذاتي للإعادة البصرية الدلالية يساعد النماذج اللغوية المرئية على الفهم بشكل أفضل

Wang, Dianyi ; Song, Wei ; Wang, Yikun ; Wang, Siyuan ; Yu, Kaicheng ; Wei, Zhongyu ; Wang, Jiaqi
تاريخ النشر: 6/11/2025
الاسترجاع الذاتي للإعادة البصرية الدلالية يساعد النماذج اللغوية المرئية على الفهم بشكل أفضل
الملخص

تقوم النماذج اللغوية-البصرية الكبيرة التقليدية (LVLMs) بتطبيق الإشراف الذاتي التتابعي على التسلسلات النصية فقط، دون دمج الوسائط البصرية بشكل كامل في عملية التعلم. وهذا يؤدي إلى ثلاثة تحديات رئيسية: (1) عدم القدرة على استخدام الصور بدون عناوين توضيحية، (2) خطر إغفال العناوين التوضيحية لتفاصيل بصرية حاسمة، و(3) صعوبة نقل محتوى معتمد بشكل كبير على الرؤية من خلال النصوص بشكل كافٍ. نتيجة لذلك، غالباً ما تركز النماذج الحالية للغة-الرؤية على مواءمة الرؤية مع اللغة بينما قد تتجاهل المعلومات البصرية الدقيقة.رغم أن بعض الأعمال السابقة استكشفت إمكانية توليد الصور بطريقة ذاتية تابعية، فإن الاستفادة الفعالة من الإشراف البصري الذاتي التتابعي لتعزيز فهم الصور لا تزال تمثل تحدياً مفتوحاً. في هذا البحث، نقدم تقنية إعادة بناء الدلالة البصرية الذاتياً (ASVR)، والتي تتيح التعلم المشترك للوسائط البصرية والنصية ضمن إطار ذاتي تابعي موحد. وقد أظهرنا أن إعادة بناء المظهر البصري الخام للصور بطريقة ذاتية تابعية لا تعزز الفهم متعدد الوسائط وقد تتسبب حتى في ضرره. بالمقابل، يحسن إعادة بناء الدلالة البصرية للصور بطريقة ذاتية تابعية الفهم بشكل مستمر.من الجدير بالذكر أننا اكتشفنا أنه حتى عند تقديم الخصائص البصرية المستمرة كمدخلات للنماذج، يمكنها إعادة بناء الرموز الدلالية المتقطعة بكفاءة، مما يؤدي إلى تحسينات مستقرة ومتسقة عبر مجموعة واسعة من مقاييس الفهم متعدد الوسائط. يوفر نهجنا زيادة كبيرة في الأداء عبر مختلف أحجام البيانات (556 ألف - 2 مليون) وأنواع الهياكل الأساسية لنماذج اللغة الكبيرة (LLMs). وبشكل خاص، يحسن ASVR نموذج LLaVA-1.5 بنسبة 5% في المتوسط ​​عبر 14 مقياساً متعدداً للوسائط. يمكن الوصول إلى الكود المصدر من الرابط التالي: https://github.com/AlenjandroWang/ASVR.