Command Palette
Search for a command to run...
تعزيز مواءمة الوسائط البصرية واللغوية في نماذج الرؤية واللغة الكبيرة من خلال التحسين الذاتي
تعزيز مواءمة الوسائط البصرية واللغوية في نماذج الرؤية واللغة الكبيرة من خلال التحسين الذاتي
الملخص
حققت نماذج الرؤية واللغة الكبيرة (LVLMs) نتائج مثيرة للإعجاب في مهام الإجابة على الأسئلة البصرية والاستدلال من خلال ضبط تعليمات الرؤية على مجموعات بيانات معينة. ومع ذلك، لا يزال هناك مجال كبير للتحسين في تطابق الوسائط البصرية واللغوية. تعتمد الطرق الحالية غالبًا على نماذج أو بيانات خارجية، مما يؤدي إلى نتائج تطابق غير قابلة للتحكم وغير مستقرة. في هذا البحث، نقترح SIMA، وهو إطار ذاتي التحسين يعزز تطابق الوسائط البصرية واللغوية دون اعتماد خارجي. يستخدم SIMA مجموعات بيانات ضبط تعليمات الرؤية الموجودة لإنشاء réponses ذاتية، مع دمج آلية نقد ذاتي سياقية تقوم ببناء أزواج تفضيل لضبط النموذج. وبشكل حاسم، يسمح نهجنا لنماذج الرؤية واللغة الكبيرة بالعمل كنقادٍ من خلال تصميم تعليمات نقد فعالة، مما يلغي الحاجة إلى التحسين الإضافي باستخدام بيانات التعليم الخارجية. نقدم ثلاثة مقاييس بصرية جديدة ضمن عملية النقد الذاتي لتوجيه الحكم، مما يحسن بشكل كبير دقة النقد الذاتي. من خلال التجارب الشاملة عبر 14 مؤشرًا للهلوسة ومقاييس شاملة أخرى، نثبت أن SIMA يحسن بشكل كبير أداء LVLM ويتفوق على الأساليب السابقة،实现卓越的模态对齐.请注意,最后一句中的“实现卓越的模态对齐”似乎被错误地转换成了中文。以下是正确的阿拉伯语翻译:من خلال التجارب الشاملة عبر 14 مؤشرًا للهلوسة ومقاييس شاملة أخرى، نثبت أن SIMA يحسن بشكل كبير أداء LVLM ويتفوق على الأساليب السابقة، لتحقيق تطابق وسائطي متميز.