دراسة تجريبية لتدريب نماذج الرؤية واللغة من الطرف إلى الطرف باستخدام المحولات

أثبت التدريب المسبق على الرؤية واللغة (VL) فعاليته العالية في مجموعة متنوعة من المهام اللاحقة (downstream) المتعلقة بالرؤية واللغة. وعلى الرغم من أن الأبحاث الحديثة أظهرت أن النماذج ذات المعمارية الكاملة القائمة على المحولات (fully transformer-based) يمكن أن تكون أكثر كفاءة مقارنة بالطرق السابقة القائمة على ميزات المناطق (region-feature-based)، فإن أداؤها في المهام اللاحقة غالبًا ما ينخفض بشكل كبير. في هذه الورقة، نقدّم METER، وهي إطار عمل متعدد الوسائط قائم على المحولات بشكل كامل (Multimodal End-to-end TransformER)، من خلاله نستكشف كيفية تصميم وتدريب نموذج VL يعتمد بالكامل على المحولات بطريقة منتهية (end-to-end). وبشكل محدد، نحلل تصميمات النموذج عبر عدة أبعاد: مشغّلات الرؤية (مثل CLIP-ViT، Swin Transformer)، مشغّلات النص (مثل RoBERTa، DeBERTa)، وحدة دمج الوسائط المتعددة (مثل الانتباه المدمج مقابل الانتباه المشترك)، وتصميم المعمارية (مثل النموذج المُشفِّر فقط مقابل النموذج المُشفِّر-المحوّل)، وأهداف التدريب المسبق (مثل نمذجة الصورة المُحجبَة). قمنا بإجراء تجارب شاملة وقدمّا رؤى حول كيفية تدريب نموذج محولات VL أداءً عالٍ. حقق METER دقة قدرها 77.64% على مجموعة بيانات VQAv2 test-std باستخدام فقط 4 ملايين صورة للتدريب المسبق، متفوّقًا على أفضل نموذج قائم على ميزات المناطق بنسبة 1.04%، ومتفوّقًا على أفضل نموذج سابق مبني بالكامل على المحولات بنسبة 1.6%. وبشكل لافت، عند التوسيع أكثر، حقق أفضل نموذج لدينا في مهام الاستجابة على الأسئلة (VQA) دقة قدرها 80.54%. تم إصدار الكود والنماذج المُدرّبة مسبقًا على الرابط: https://github.com/zdou0830/METER.