MaIL: شبكة ثلاثية الأبعاد موحدة تستخدم التغطية والصورة واللغة لتقسيم الصور المرجعية

التحليل المرئي المرجعي هو مهمة متعددة الوسائط نموذجية، وتهدف إلى إنتاج قناع ثنائي القيم للعنصر المُشار إليه في التعبيرات اللغوية المعطاة. اعتمد الأبحاث السابقة على حل ثنائي الوسائط، حيث يُعامل كل من الصور واللغة كمودالتين ضمن نموذج تشفير-دمج-فك تشفير. ومع ذلك، فإن هذا النموذج غير مثالي للمهمة المستهدفة لسببين. أولاً، يُدمج فقط الميزات عالية المستوى التي تُنتِجها مُشفرات وحيدة الوسائط بشكل منفصل، مما يعيق التعلم المتبادل الكافي بين الوسائط. ثانيًا، تُدرَّب مُشفرات الوسائط الفردية بشكل مستقل، مما يؤدي إلى عدم اتساق بين المهام المُدرَّبة مسبقًا على وسائط منفصلة والمهمة متعددة الوسائط المستهدفة. علاوة على ذلك، غالبًا ما يتجاهل هذا النموذج أو يستخدم بشكل ضئيل الميزات المستندة إلى الكائنات (instance-level) التي تبدو مفيدة بشكل مباشر. لمعالجة هذه المشكلات، نقترح MaIL، وهو نموذج تشفير-فك تشفير أكثر اختصارًا يحتوي على مشفر ثلاثي الوسائط (Mask-Image-Language). بشكل محدد، يوحّد MaIL مُشفرات الوسائط الفردية ونماذج دمجها في مشفر عميق للتفاعل بين الوسائط، مما يُسهّل التفاعل الكافي بين الميزات المختلفة عبر الوسائط المختلفة. وفي الوقت نفسه، يتجنب MaIL بشكل مباشر القيود الثانية، لأنه لم يعد هناك حاجة إلى مُشفرات وحيدة الوسائط. علاوة على ذلك، لأول مرة، نقترح إدخال قناعات الكائنات كمودالية إضافية، مما يُعزز بشكل صريح الميزات المستندة إلى الكائنات ويُساهم في نتائج تحليل أدق. وقد حقق MaIL أداءً جديدًا قياسيًا على جميع مجموعات بيانات تحليل الصور المرجعية المستخدمة بشكل شائع، بما في ذلك RefCOCO وRefCOCO+ وG-Ref، مع تحسينات كبيرة تصل إلى 3%-10% مقارنة بأفضل الطرق السابقة. سيتم إطلاق الشفرة قريبًا.