HyperAIHyperAI

Command Palette

Search for a command to run...

MUREL: التفكير العلائقي متعدد الوسائط للإجابة على الأسئلة البصرية

Remi Cadene; Hedi Ben-younes; Matthieu Cord; Nicolas Thome

الملخص

شبكات الانتباه متعددة الوسائط هي نماذج متطورة حاليًا لمهام الإجابة على الأسئلة البصرية (VQA) التي تتعلق بالصور الحقيقية. رغم أن آلية الانتباه تسمح بتركيز الاهتمام على المحتوى البصري ذي الصلة بالسؤال، إلا أنها غالبًا ما تكون غير كافية لنمذجة الخصائص المعقدة للتفكير المطلوبة في مهام VQA أو مهام أخرى ذات مستوى عالٍ.في هذا البحث، نقترح MuRel، وهو شبكة علاقات متعددة الوسائط يتم تعلمها من النهاية إلى النهاية للتفكير على الصور الحقيقية. أولى إسهاماتنا هي تقديم خلية MuRel، وهي وحدة أساسية للتفكير تمثل التفاعلات بين السؤال ومناطق الصورة بواسطة تمثيل متجهي غني، وتنموذج العلاقات بين المناطق باستخدام تركيبات ثنائية. ثانيًا، ندمج الخلية في شبكة MuRel الكاملة، والتي تقوم بتكرار تحسين التفاعلات البصرية والأسئلة بشكل تدريجي ويمكن استخدامها لتحديد خطط تصور أكثر دقة من مجرد خرائط الانتباه.نؤكد صحة نهجنا من خلال دراسات تقليص مختلفة، ونظهر تفوقه على الأساليب القائمة على الانتباه في ثلاثة مجموعات بيانات: VQA 2.0 و VQA-CP v2 و TDIUC. شبكتنا النهائية MuRel تنافس أو تتفوق على أفضل النتائج الحالية في هذا السياق الصعب.شفرتنا متاحة على الرابط التالي: https://github.com/Cadene/murel.bootstrap.pytorch


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MUREL: التفكير العلائقي متعدد الوسائط للإجابة على الأسئلة البصرية | مستندات | HyperAI