HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة التدرج الجشعة لاستجابة الأسئلة البصرية القوية

Xinzhe Han Shuhui Wang Chi Su Qingming Huang Qi Tian

الملخص

يُعدّ التحيّز اللغوي مشكلة جوهرية في مهام الإجابة على الأسئلة البصرية (VQA)، حيث يميل النماذج إلى الاستفادة من التحيّزات الموجودة في البيانات عند اتخاذ القرار النهائي دون أخذ المعلومات البصرية في الاعتبار. ونتيجة لذلك، تُعاني هذه النماذج من انخفاض الأداء عند التعامل مع بيانات خارج التوزيع (out-of-distribution) وعدم تقديم تفسيرات بصرية كافية. بناءً على تحليل تجريبي للطرق الحالية المُصممة لتحسين مقاومة التحيّز في VQA، نسلط الضوء على التحيّز اللغوي في هذه المهمة من منظورين رئيسيين: التحيّز في التوزيع (distribution bias) والتحيّز في الحلول السريعة (shortcut bias). ونُقدّم في هذا العمل إطارًا جديدًا لاستبعاد التحيّز يُسمى "تجميع التدرج الجشع" (Greedy Gradient Ensemble - GGE)، الذي يدمج عدة نماذج مُتحيّزة بهدف تدريب نموذج أساسي غير متحيّز. وباستخدام استراتيجية جشعة، يُجبر GGE النماذج المُتحيّزة على التعلّم المفرط (over-fit) لتوزيع البيانات المُتحيّزة أولًا، مما يُشجع النموذج الأساسي على التركيز بشكل أكبر على الأمثلة التي يصعب على النماذج المُتحيّزة حلها. تُظهر النتائج التجريبية أن طريقة التحديد هذه تُستخدم المعلومات البصرية بشكل أكثر فعالية، وتحقق أداءً من الدرجة الأولى (state-of-the-art) في تشخيص بيانات VQA-CP دون الحاجة إلى ملاحظات إضافية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp