منذ 2 أشهر

UNITER: تمثيل صورة-نص شامل

Yen-Chun Chen; Linjie Li; Licheng Yu; Ahmed El Kholy; Faisal Ahmed; Zhe Gan; Yu Cheng; Jingjing Liu

الملخص

التمثيل المشترك للصورة والنص هو الأساس لمعظم مهام الرؤية واللغة (V+L)، حيث يتم معالجة المدخلات متعددة الوسائط بشكل متزامن لتحقيق الفهم البصري والنحوي المشترك. في هذا البحث، نقدم UNITER، وهو تمثيل شامل مشترك للصورة والنص، تم تعلمه من خلال التدريب الأولي على نطاق واسع عبر أربعة مجموعات بيانات للصورة والنص (COCO، Visual Genome، Conceptual Captions، و SBU Captions)، والذي يمكنه دعم مهام V+L المتنوعة باستخدام التمثيلات المشتركة متعددة الوسائط. صممنا أربع مهام للتدريب الأولي: النمذجة اللغوية المقنّعة (MLM)، النمذجة الإقليمية المقنّعة (MRM، بثلاثة أنواع)، مطابقة الصورة والنص (ITM)، وتوافق الكلمات مع المناطق (WRA).على عكس الأعمال السابقة التي تطبق التغطية العشوائية المشتركة على كلا الوسيلتين، نستخدم التغطية الشرطية في مهام التدريب الأولي (أي أن النمذجة اللغوية أو الإقليمية المقنّعة تكون مشروطة بالملاحظة الكاملة للصورة أو النص). بالإضافة إلى ITM لمطابقة الصورة والنص بشكل عام، نقترح أيضًا WRA باستخدام النقل الأمثل (OT) لتحفيز التناسق الدقيق بين الكلمات ومناطق الصورة أثناء التدريب الأولي.تظهر التحليلات الشاملة أن كلًا من التغطية الشرطية و WRA المستندة إلى OT يساهمان في تحسين جودة التدريب الأولي. كما أجرينا دراسة تقليص شاملة لاكتشاف أفضل تركيبة من مهام التدريب الأولي. تبين التجارب الواسعة أن UNITER حقق أعلى مستوى جديد من الأداء في ست مهام V+L (عبر تسعة قواعد بيانات)، بما في ذلك الإجابة على الأسئلة البصرية، استرجاع الصور والنصوص، فهم العبارات المرجعية، الاستدلال البصري بالفطرة السليمة، الاستنباط البصري، و NLVR$^2$. يمكن الوصول إلى الكود عبر الرابط https://github.com/ChenRocks/UNITER.