التدريب المسبق الموحّد للرؤية واللغة لتأليف العناوين التوضيحية للصور والأسئلة والأجوبة البصرية

تُقدّم هذه الورقة نموذجًا موحدًا للتدريب المسبق للرؤية واللغة (VLP). يتميز هذا النموذج بالوحدة من حيث: (1) إمكانية تكييفه لمهام إنشاء الرؤية واللغة (مثل وصف الصور) أو مهام فهمها (مثل الإجابة على الأسئلة البصرية)، و(2) استخدام شبكة متعددة الطبقات من نموذج الترانسفورمر المشتركة في كل من الترميز (الإدخال) والفك (الإخراج)، وهو ما يختلف عن العديد من الأساليب الحالية التي تُطبّق المشغل (المرسل) والمتلقّي (المرسل العكسي) باستخدام نماذج منفصلة. يتم تدريب النموذج الموحّد للرؤية واللغة على كمّ كبير من أزواج الصور والنصوص باستخدام أهداف تعلّم غير مراقب لمهامتين: التنبؤ بالرؤية واللغة المُقنّع ثنائي الاتجاه (bidirectional) وتنبؤ التسلسل إلى التسلسل (seq2seq). تختلف هاتان المهمتان فقط في السياق الذي يعتمد عليه التنبؤ. ويتم التحكم في ذلك من خلال استخدام أقنعة انتباه ذاتي محددة للشبكة الترانسفورمر المشتركة. إلى حد معرفتنا، فإن نموذج VLP هو أول نموذج تم الإبلاغ عنه يحقق نتائج من الدرجة المتميزة (state-of-the-art) في كلا نوعي المهام: إنشاء الرؤية واللغة وفهمها، رغم اختلاف طبيعتهما، مثل وصف الصور والإجابة على الأسئلة البصرية، على ثلاث مجموعات معيارية صعبة: COCO Captions، Flickr30k Captions، وVQA 2.0. يتوفر الكود والنماذج المُدرّبة مسبقًا على الرابط التالي: https://github.com/LuoweiZhou/VLP.