HyperAIHyperAI

Command Palette

Search for a command to run...

RUBi: تقليل التحيزات الأحادية النمط في إجابة الأسئلة البصرية

Remi Cadene Corentin Dancette Hedi Ben-younes Matthieu Cord Devi Parikh

الملخص

الإجابة على الأسئلة البصرية (VQA) هي مهمة الإجابة على أسئلة حول صورة. غالبًا ما تستغل بعض نماذج VQA التحيزات أحادية الوضع لتقديم الإجابة الصحيحة دون استخدام معلومات الصورة. نتيجة لذلك، تواجه هذه النماذج انخفاضًا كبيرًا في الأداء عند تقييمها على بيانات خارج توزيع مجموعة التدريب الخاصة بها. يشكل هذا المشكلة الحرجة عدم ملاءمتها للإعدادات الحقيقية.نقترح RUBi، وهي استراتيجية تعلم جديدة لتقليل التحيزات في أي نموذج VQA. تعمل هذه الاستراتيجية على تقليل أهمية الأمثلة الأكثر تحيزًا، أي تلك التي يمكن تصنيفها بشكل صحيح دون النظر إلى الصورة. إنها تحث ضمنيًا نموذج VQA على استخدام الوسيلتين الدخليتين بدلاً من الاعتماد على القواعد الإحصائية بين السؤال والإجابة. نستفيد من نموذج يستند فقط إلى السؤال للكشف عن التحيزات اللغوية من خلال تحديد متى يتم استخدام هذه القواعد غير المرغوب فيها. يمنع هذا النموذج النموذج الأساسي لـ VQA من تعلم هذه القواعد بتأثيره على توقعاته. يؤدي ذلك إلى ضبط الديناميكي للخسارة بهدف تعويض التحيزات. نؤكد إسهاماتنا من خلال تحقيق نتائج أفضل من الحالة المعاصرة لأحدث التقنيات في مجموعة البيانات VQA-CP v2. تم تصميم هذه المجموعة خصيصًا لتقييم متانة نماذج VQA عند تعرضها لتحيزات سؤال مختلفة أثناء الاختبار عما شوهد أثناء التدريب.كودنا متاح: github.com/cdancette/rubi.bootstrap.pytorch


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
RUBi: تقليل التحيزات الأحادية النمط في إجابة الأسئلة البصرية | مستندات | HyperAI