MUREL: التفكير العلائقي متعدد الوسائط للإجابة على الأسئلة البصرية

شبكات الانتباه متعددة الوسائط هي نماذج متطورة حاليًا لمهام الإجابة على الأسئلة البصرية (VQA) التي تتعلق بالصور الحقيقية. رغم أن آلية الانتباه تسمح بتركيز الاهتمام على المحتوى البصري ذي الصلة بالسؤال، إلا أنها غالبًا ما تكون غير كافية لنمذجة الخصائص المعقدة للتفكير المطلوبة في مهام VQA أو مهام أخرى ذات مستوى عالٍ.في هذا البحث، نقترح MuRel، وهو شبكة علاقات متعددة الوسائط يتم تعلمها من النهاية إلى النهاية للتفكير على الصور الحقيقية. أولى إسهاماتنا هي تقديم خلية MuRel، وهي وحدة أساسية للتفكير تمثل التفاعلات بين السؤال ومناطق الصورة بواسطة تمثيل متجهي غني، وتنموذج العلاقات بين المناطق باستخدام تركيبات ثنائية. ثانيًا، ندمج الخلية في شبكة MuRel الكاملة، والتي تقوم بتكرار تحسين التفاعلات البصرية والأسئلة بشكل تدريجي ويمكن استخدامها لتحديد خطط تصور أكثر دقة من مجرد خرائط الانتباه.نؤكد صحة نهجنا من خلال دراسات تقليص مختلفة، ونظهر تفوقه على الأساليب القائمة على الانتباه في ثلاثة مجموعات بيانات: VQA 2.0 و VQA-CP v2 و TDIUC. شبكتنا النهائية MuRel تنافس أو تتفوق على أفضل النتائج الحالية في هذا السياق الصعب.شفرتنا متاحة على الرابط التالي: https://github.com/Cadene/murel.bootstrap.pytorch