HyperAIHyperAI

Command Palette

Search for a command to run...

تعزيز مواءمة الوسائط البصرية واللغوية في نماذج الرؤية واللغة الكبيرة من خلال التحسين الذاتي

الملخص

حققت نماذج الرؤية واللغة الكبيرة (LVLMs) نتائج مثيرة للإعجاب في مهام الإجابة على الأسئلة البصرية والاستدلال من خلال ضبط تعليمات الرؤية على مجموعات بيانات معينة. ومع ذلك، لا يزال هناك مجال كبير للتحسين في تطابق الوسائط البصرية واللغوية. تعتمد الطرق الحالية غالبًا على نماذج أو بيانات خارجية، مما يؤدي إلى نتائج تطابق غير قابلة للتحكم وغير مستقرة. في هذا البحث، نقترح SIMA، وهو إطار ذاتي التحسين يعزز تطابق الوسائط البصرية واللغوية دون اعتماد خارجي. يستخدم SIMA مجموعات بيانات ضبط تعليمات الرؤية الموجودة لإنشاء réponses ذاتية، مع دمج آلية نقد ذاتي سياقية تقوم ببناء أزواج تفضيل لضبط النموذج. وبشكل حاسم، يسمح نهجنا لنماذج الرؤية واللغة الكبيرة بالعمل كنقادٍ من خلال تصميم تعليمات نقد فعالة، مما يلغي الحاجة إلى التحسين الإضافي باستخدام بيانات التعليم الخارجية. نقدم ثلاثة مقاييس بصرية جديدة ضمن عملية النقد الذاتي لتوجيه الحكم، مما يحسن بشكل كبير دقة النقد الذاتي. من خلال التجارب الشاملة عبر 14 مؤشرًا للهلوسة ومقاييس شاملة أخرى، نثبت أن SIMA يحسن بشكل كبير أداء LVLM ويتفوق على الأساليب السابقة،实现卓越的模态对齐.请注意,最后一句中的“实现卓越的模态对齐”似乎被错误地转换成了中文。以下是正确的阿拉伯语翻译:من خلال التجارب الشاملة عبر 14 مؤشرًا للهلوسة ومقاييس شاملة أخرى، نثبت أن SIMA يحسن بشكل كبير أداء LVLM ويتفوق على الأساليب السابقة، لتحقيق تطابق وسائطي متميز.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تعزيز مواءمة الوسائط البصرية واللغوية في نماذج الرؤية واللغة الكبيرة من خلال التحسين الذاتي | مستندات | HyperAI