HyperAIHyperAI

Command Palette

Search for a command to run...

UNITER: تمثيل صورة-نص شامل

Yen-Chun Chen* Linjie Li* Licheng Yu* Ahmed El Kholy Faisal Ahmed Zhe Gan Yu Cheng Jingjing Liu

الملخص

التمثيل المشترك للصورة والنص هو الأساس لمعظم مهام الرؤية واللغة (V+L)، حيث يتم معالجة المدخلات متعددة الوسائط بشكل متزامن لتحقيق الفهم البصري والنحوي المشترك. في هذا البحث، نقدم UNITER، وهو تمثيل شامل مشترك للصورة والنص، تم تعلمه من خلال التدريب الأولي على نطاق واسع عبر أربعة مجموعات بيانات للصورة والنص (COCO، Visual Genome، Conceptual Captions، و SBU Captions)، والذي يمكنه دعم مهام V+L المتنوعة باستخدام التمثيلات المشتركة متعددة الوسائط. صممنا أربع مهام للتدريب الأولي: النمذجة اللغوية المقنّعة (MLM)، النمذجة الإقليمية المقنّعة (MRM، بثلاثة أنواع)، مطابقة الصورة والنص (ITM)، وتوافق الكلمات مع المناطق (WRA).على عكس الأعمال السابقة التي تطبق التغطية العشوائية المشتركة على كلا الوسيلتين، نستخدم التغطية الشرطية في مهام التدريب الأولي (أي أن النمذجة اللغوية أو الإقليمية المقنّعة تكون مشروطة بالملاحظة الكاملة للصورة أو النص). بالإضافة إلى ITM لمطابقة الصورة والنص بشكل عام، نقترح أيضًا WRA باستخدام النقل الأمثل (OT) لتحفيز التناسق الدقيق بين الكلمات ومناطق الصورة أثناء التدريب الأولي.تظهر التحليلات الشاملة أن كلًا من التغطية الشرطية و WRA المستندة إلى OT يساهمان في تحسين جودة التدريب الأولي. كما أجرينا دراسة تقليص شاملة لاكتشاف أفضل تركيبة من مهام التدريب الأولي. تبين التجارب الواسعة أن UNITER حقق أعلى مستوى جديد من الأداء في ست مهام V+L (عبر تسعة قواعد بيانات)، بما في ذلك الإجابة على الأسئلة البصرية، استرجاع الصور والنصوص، فهم العبارات المرجعية، الاستدلال البصري بالفطرة السليمة، الاستنباط البصري، و NLVR2^22. يمكن الوصول إلى الكود عبر الرابط https://github.com/ChenRocks/UNITER.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp