تقليل التحيّزات في النماذج الكبيرة للرؤية واللغة من خلال تحسين التضمينات النصية
Aakriti Agrawal Gouthaman KV Rohith Aralikatti Gauri Jagatap Jiaxin Yuan Vijay Kamarshi Andrea Fanelli Furong Huang

الملخص
في هذه الدراسة، نُحدِّد انحيازًا جوهريًا موجودًا في الهياكل السائدة للنماذج متعددة الوسائط ذات الحجم الكبير (LVLM) تجاه الوسائط اللغوية، والذي يعود إلى حد كبير إلى الممارسة الشائعة المتمثلة في إلحاق مُدمَجات بصرية بسلسلة المدخلات النصية بشكل مباشر. ولحل هذه المشكلة، نقترح طريقة بسيطة ولكنها فعّالة، تقوم بتحسين مُدمَجات النص من خلال دمج ميزات بصرية مُحسَّبة باستخدام عملية التجميع المتوسط (average pooling). أظهرت نتائجنا تحسنًا ملحوظًا في التموضع البصري، وخفضًا كبيرًا في ظاهرة التخيلات (hallucinations) على معايير معيارية شهيرة. وعلى الرغم من أن عملية التجميع المتوسط توفر وسيلة مباشرة وقوية وفعّالة لدمج المعلومات البصرية، فإننا نعتقد أن أساليب دمج أكثر تطورًا قد تُسهم في تحسين التموضع البصري والانسجام بين الوسائط بشكل أكبر. وبما أن التركيز الأساسي في هذه الدراسة يكمن في تسليط الضوء على عدم التوازن بين الوسائط وتأثيره على التخيلات – وكذلك إثبات أن تحسين مُدمَجات النص من خلال معلومات بصرية يُخفف من هذه المشكلة – فإننا نترك استكشاف استراتيجيات دمج متقدمة للعمل المستقبلي.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.