رؤية ما وراء الصندوق: التدريب المسبق من البداية إلى النهاية لتعلم التمثيل البصري-اللغوي

نُجري دراسة حول التعلم المشترك للشبكات العصبية التلافيفية (CNN) والمحولات (Transformer) في سياق التدريب المسبق للرؤية واللغة (VLPT)، الذي يهدف إلى تعلُّم التوافق بين الوسائط من خلال ملايين أزواج الصور والنصوص. تُستخرج الطرق المتطورة حديثًا مناطق صور بارزة وتوافق هذه المناطق مع الكلمات خطوة بخطوة. وبما أن الميزات البصرية القائمة على المناطق تمثل عادةً أجزاءً من الصورة، فإن من الصعب على النماذج الحالية للرؤية واللغة فهم المعاني بشكل كامل من النصوص الطبيعية المرتبطة بها. في هذه الورقة، نُقدّم نموذج SOHO الذي يُمكّن من "الرؤية خارج الصندوق" من خلال اعتماد الصورة الكاملة كمدخل، وتعلم تمثيلات الرؤية واللغة بطريقة نهائية (end-to-end). لا يتطلب SOHO تسميات مربعات حدودية (bounding box)، ما يُمكنه من التنبؤ بسرعة تصل إلى 10 أضعاف مقارنة بالطرق القائمة على المناطق. وبشكل خاص، يتعلم SOHO استخلاص ميزات صورية شاملة ولكن مدمجة من خلال قاموس بصري (VD)، يُسهِّل الفهم بين الوسائط المختلفة. تم تصميم القاموس البصري لتمثيل تصورات بصرية متسقة تعبّر عن معاني متشابهة، ويتم تحديثه بشكل فوري ويُستخدم في مهمة التدريب المسبق المُقترحة لدينا، وهي نمذجة الصورة المُقنعة (Masked Visual Modeling - MVM). أجرينا تجارب على أربع مهام معروفة في مجال الرؤية واللغة، باتباع إعدادات التدريب المسبق القياسية. وبشكل خاص، حقق SOHO مكاسب مطلقة قدرها 2.0% في دقة R@1 على مجموعة بيانات MSCOCO لاسترجاع النصوص (5k test split)، و1.5% في الدقة على مجموعة بيانات NLVR$^2$ (test-P split)، و6.7% في الدقة على مجموعة بيانات SNLI-VE (test split)، على التوالي.