.Align قبل الدمج: تعلم التمثيل البصري واللغوي باستخدام التقطير النبضي

أظهر التعلم على تمثيلات الرؤية واللغة على نطاق واسع تحسينات واعدة في مهام مختلفة تتعلق بالرؤية واللغة. تعتمد معظم الطرق الحالية على مُشفر متعدد الوسائط قائم على المتحول (transformer) لنمذجة رموز الصور (ميزات الصور القائمة على المناطق) ورموز الكلمات بشكل مشترك. نظرًا لعدم تطابق رموز الصور مع رموز الكلمات، يواجه المُشفر المتعدد الوسائط تحديًا في تعلم التفاعلات بين الصورة والنص. في هذا البحث، نقدم خسارة مقارنة لتطابق (ALign) تمثيلات الصورة والنص قبل دمجها (BEfore Fusing) من خلال انتباه متعدد الوسائط (cross-modal attention)، مما يمكن من تعلم أكثر ثباتًا للتمثيلات المرئية واللغوية. بخلاف معظم الطرق الموجودة حاليًا، لا يتطلب أسلوبنا شروحات صناديق الحدود ولا صور ذات دقة عالية. لتحسين التعلم من بيانات الويب الضوضائية، نقترح تقنية التقطير الزخم، وهي طريقة تدريب ذاتي تستفيد من الأهداف الزائفة التي ينتجها نموذج الزخم. نقدم تحليلًا نظريًا لـ ALBEF من وجهة نظر تعظيم المعلومات المتبادلة، مما يوضح أن المهام التدريبية المختلفة يمكن فهمها كطرق مختلفة لإنشاء آراء لمجموعة الصورة والنص. حقق ALBEF أفضل الأداء الحالي في العديد من المهام الثانوية المتعلقة بالرؤية واللغة. في استرجاع الصورة والنص، يتفوق ALBEF على الطرق التي يتم تدريبها مسبقًا على مجموعات بيانات أكبر بمراحل عديدة. في أسئلة الإجابة البصرية (VQA) واستدلال اللغة الطبيعية المتكرر (NLVR$^2$)، حقق ALBEF تحسينات مطلقة بنسبة 2.37% و3.84% مقارنة بأفضل الأداء الحالي، مع الاستمتاع بسرعة استدلال أسرع. يمكن الحصول على الكود والنماذج المتدربة مسبقًا عبر الرابط: https://github.com/salesforce/ALBEF/.