MDETR -- الكشف المُعَدَّل للفهم متعدد الوسائط من النهاية إلى النهاية

تستند أنظمة الاستدلال متعددة الأوضاع على كاشف أشياء مُدرب مسبقًا لاستخراج المناطق ذات الاهتمام من الصورة. ومع ذلك، يتم استخدام هذا الوحدة الحاسمة عادةً كصندوق أسود، حيث يُدرب بشكل مستقل عن المهمة التالية وفي مفردات ثابتة من الأشياء والسمات. وهذا يجعل من الصعب على مثل هذه الأنظمة التقاط الذيل الطويل للمفاهيم البصرية المعبر عنها في النص الحر. في هذا البحث، نقترح MDETR (مودول الكاشف المتغير)، وهو كاشف أشياء متكامل من البداية إلى النهاية يكتشف الأشياء في الصورة بشرط وجود استعلام نصي خام، مثل تعليق أو سؤال. نستخدم هندسة قائمة على المتحولات (transformers) للتفكير المشترك فوق النص والصورة من خلال دمج الوسطين في مرحلة مبكرة من النموذج. نقوم بتغطية تدريب الشبكة على 1.3 مليون زوج من النصوص والصور، تم استخراجها من مجموعة بيانات متعددة الأوضاع موجودة مسبقًا تحتوي على تناظر صريح بين العبارات في النص والأجسام في الصورة. ثم نقوم بالضبط الدقيق على عدة مهمات تالية مثل تثبيت العبارة، فهم التعبير المرجعي والتقسيم، مما يحقق أفضل النتائج حتى الآن على مقاييس شائعة. كما ندرس فائدة نموذجنا ككاشف أشياء عند تخصيصه لمجموعة محددة من العلامات في إعداد قليل الطلقات (few-shot). نوضح أن طريقة التدريب المسبق لدينا توفر وسيلة لمعالجة الذيل الطويل لأصناف الأجسام التي لديها عدد قليل جدًا من الحالات الموسومة. يمكن توسيع طريقتنا بسهولة لأسئلة الإجابة البصرية، مما يؤدي إلى أداء تنافسي على GQA و CLEVR. الرمز والموديلات متاحة على https://github.com/ashkamath/mdetr.