HyperAIHyperAI
منذ 17 أيام

مجموعة التدرج الجشعة لاستجابة الأسئلة البصرية القوية

Xinzhe Han, Shuhui Wang, Chi Su, Qingming Huang, Qi Tian
مجموعة التدرج الجشعة لاستجابة الأسئلة البصرية القوية
الملخص

يُعدّ التحيّز اللغوي مشكلة جوهرية في مهام الإجابة على الأسئلة البصرية (VQA)، حيث يميل النماذج إلى الاستفادة من التحيّزات الموجودة في البيانات عند اتخاذ القرار النهائي دون أخذ المعلومات البصرية في الاعتبار. ونتيجة لذلك، تُعاني هذه النماذج من انخفاض الأداء عند التعامل مع بيانات خارج التوزيع (out-of-distribution) وعدم تقديم تفسيرات بصرية كافية. بناءً على تحليل تجريبي للطرق الحالية المُصممة لتحسين مقاومة التحيّز في VQA، نسلط الضوء على التحيّز اللغوي في هذه المهمة من منظورين رئيسيين: التحيّز في التوزيع (distribution bias) والتحيّز في الحلول السريعة (shortcut bias). ونُقدّم في هذا العمل إطارًا جديدًا لاستبعاد التحيّز يُسمى "تجميع التدرج الجشع" (Greedy Gradient Ensemble - GGE)، الذي يدمج عدة نماذج مُتحيّزة بهدف تدريب نموذج أساسي غير متحيّز. وباستخدام استراتيجية جشعة، يُجبر GGE النماذج المُتحيّزة على التعلّم المفرط (over-fit) لتوزيع البيانات المُتحيّزة أولًا، مما يُشجع النموذج الأساسي على التركيز بشكل أكبر على الأمثلة التي يصعب على النماذج المُتحيّزة حلها. تُظهر النتائج التجريبية أن طريقة التحديد هذه تُستخدم المعلومات البصرية بشكل أكثر فعالية، وتحقق أداءً من الدرجة الأولى (state-of-the-art) في تشخيص بيانات VQA-CP دون الحاجة إلى ملاحظات إضافية.

مجموعة التدرج الجشعة لاستجابة الأسئلة البصرية القوية | أحدث الأوراق البحثية | HyperAI