HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 16 أيام

تقليل التحيّزات في النماذج الكبيرة للرؤية واللغة من خلال تحسين التضمينات النصية

Aakriti Agrawal Gouthaman KV Rohith Aralikatti Gauri Jagatap Jiaxin Yuan Vijay Kamarshi Andrea Fanelli Furong Huang

تقليل التحيّزات في النماذج الكبيرة للرؤية واللغة من خلال تحسين التضمينات النصية

الملخص

في هذه الدراسة، نُحدِّد انحيازًا جوهريًا موجودًا في الهياكل السائدة للنماذج متعددة الوسائط ذات الحجم الكبير (LVLM) تجاه الوسائط اللغوية، والذي يعود إلى حد كبير إلى الممارسة الشائعة المتمثلة في إلحاق مُدمَجات بصرية بسلسلة المدخلات النصية بشكل مباشر. ولحل هذه المشكلة، نقترح طريقة بسيطة ولكنها فعّالة، تقوم بتحسين مُدمَجات النص من خلال دمج ميزات بصرية مُحسَّبة باستخدام عملية التجميع المتوسط (average pooling). أظهرت نتائجنا تحسنًا ملحوظًا في التموضع البصري، وخفضًا كبيرًا في ظاهرة التخيلات (hallucinations) على معايير معيارية شهيرة. وعلى الرغم من أن عملية التجميع المتوسط توفر وسيلة مباشرة وقوية وفعّالة لدمج المعلومات البصرية، فإننا نعتقد أن أساليب دمج أكثر تطورًا قد تُسهم في تحسين التموضع البصري والانسجام بين الوسائط بشكل أكبر. وبما أن التركيز الأساسي في هذه الدراسة يكمن في تسليط الضوء على عدم التوازن بين الوسائط وتأثيره على التخيلات – وكذلك إثبات أن تحسين مُدمَجات النص من خلال معلومات بصرية يُخفف من هذه المشكلة – فإننا نترك استكشاف استراتيجيات دمج متقدمة للعمل المستقبلي.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تقليل التحيّزات في النماذج الكبيرة للرؤية واللغة من خلال تحسين التضمينات النصية | الأوراق البحثية | HyperAI