HyperAIHyperAI
منذ 2 أشهر

LXMERT: تعلم تمثيلات الكودر متعددة الوسائط من الترانسفورمرات

Hao Tan; Mohit Bansal
LXMERT: تعلم تمثيلات الكودر متعددة الوسائط من الترانسفورمرات
الملخص

يتطلب التفكير البصري واللغوي فهمًا لمفاهيم البصرية ودلالات اللغة، وأهم من ذلك، التناسق والعلاقات بين هذين النمطين. لذلك، نقترح إطار العمل LXMERT (تعلم تمثيلات المُشفر العابر للنمط من خلال المتحولات) لتعلم هذه الروابط البصرية واللغوية. في LXMERT، نقوم ببناء نموذج متحول (Transformer) على نطاق واسع يتكون من ثلاثة مشفرات: مشفر علاقات الأشياء، مشفر اللغة، ومشفر العبور بين النمطين. بعد ذلك، لمنح نموذجنا القدرة على ربط الدلالات البصرية واللغوية، نقوم بتدريبه مسبقًا باستخدام كميات كبيرة من أزواج الصور والجمل عبر خمسة مهام تدريبية مسبقة متنوعة وممثلة: نمذجة اللغة المقنعة (Masked Language Modeling)، التنبؤ بالأشياء المقنعة (Feature Regression و Label Classification)، مطابقة العبور بين النمطين، وإجابة أسئلة الصور. تساعد هذه المهام في تعلم العلاقات داخل كل نمط وفيما بين النمطين. بعد التعديل الدقيق من معاملات التدريب المسبق لدينا، يحقق نموذجنا أفضل النتائج الحالية على قاعدتين بيانات لإجابة الأسئلة البصرية (VQA و GQA). كما نظهر قابلية تعميم نموذجنا المُدرب مسبقًا للنمطيْن عن طريق تكييفه لأداء مهمة صعبة في الاستدلال البصري، وهي NLVR2، حيث حققنا تحسينًا بنسبة 22% مطلقة (من 54% إلى 76%) على أفضل نتيجة سابقة. أخيرًا، نقدم دراسات تقليص متأنية لاثبات أن كلاً من مكونات النموذج الجديدة واستراتيجيات التدريب المسبق لدينا يساهمان بشكل كبير في تحقيق هذه النتائج القوية؛ كما نقدم عدة تصورات للانتباه لمختلف المشفرات. الرمز البرمجي والنماذج المُدربة مسبقًا متاحة للعامة على الرابط: https://github.com/airsplay/lxmert

LXMERT: تعلم تمثيلات الكودر متعددة الوسائط من الترانسفورمرات | أحدث الأوراق البحثية | HyperAI