الملخص

في هذه الدراسة، نُحدِّد انحيازًا جوهريًا موجودًا في الهياكل السائدة للنماذج متعددة الوسائط ذات الحجم الكبير (LVLM) تجاه الوسائط اللغوية، والذي يعود إلى حد كبير إلى الممارسة الشائعة المتمثلة في إلحاق مُدمَجات بصرية بسلسلة المدخلات النصية بشكل مباشر. ولحل هذه المشكلة، نقترح طريقة بسيطة ولكنها فعّالة، تقوم بتحسين مُدمَجات النص من خلال دمج ميزات بصرية مُحسَّبة باستخدام عملية التجميع المتوسط (average pooling). أظهرت نتائجنا تحسنًا ملحوظًا في التموضع البصري، وخفضًا كبيرًا في ظاهرة التخيلات (hallucinations) على معايير معيارية شهيرة. وعلى الرغم من أن عملية التجميع المتوسط توفر وسيلة مباشرة وقوية وفعّالة لدمج المعلومات البصرية، فإننا نعتقد أن أساليب دمج أكثر تطورًا قد تُسهم في تحسين التموضع البصري والانسجام بين الوسائط بشكل أكبر. وبما أن التركيز الأساسي في هذه الدراسة يكمن في تسليط الضوء على عدم التوازن بين الوسائط وتأثيره على التخيلات – وكذلك إثبات أن تحسين مُدمَجات النص من خلال معلومات بصرية يُخفف من هذه المشكلة – فإننا نترك استكشاف استراتيجيات دمج متقدمة للعمل المستقبلي.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

تقليل التحيّزات في النماذج الكبيرة للرؤية واللغة من خلال تحسين التضمينات النصية

Aakriti Agrawal Gouthaman KV Rohith Aralikatti Gauri Jagatap Jiaxin Yuan Vijay Kamarshi Andrea Fanelli Furong Huang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تقليل التحيّزات في النماذج الكبيرة للرؤية واللغة من خلال تحسين التضمينات النصية

Aakriti Agrawal Gouthaman KV Rohith Aralikatti Gauri Jagatap Jiaxin Yuan Vijay Kamarshi Andrea Fanelli Furong Huang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تقليل التحيّزات في النماذج الكبيرة للرؤية واللغة من خلال تحسين التضمينات النصية

Aakriti Agrawal Gouthaman KV Rohith Aralikatti Gauri Jagatap Jiaxin Yuan Vijay Kamarshi Andrea Fanelli Furong Huang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters