SimVLM: تدريب نموذج لغوي بصري بسيط باستخدام إشراف ضعيف

بفضل التقدم الأخير في النمذجة المشتركة للتمثيلات البصرية والنصية، حققت النمذجة المسبقة للغة والرؤية (VLP) أداءً ملحوظًا في العديد من المهام اللاحقة متعددة الوسائط. ومع ذلك، فإن الحاجة إلى تسميات مكلفة تشمل وصفًا نصيًا نقيًا للصور وعلامات إقليمية تحد من قابلية التوسع للنهج الحالية، كما تُعقد إجرية التدريب المسبق من خلال إدخال أهداف متعددة محددة لكل مجموعة بيانات. في هذه الدراسة، نخفف من هذه القيود ونقدّم إطارًا تدريبيًا بسيطًا يُسمى نموذج الرؤية واللغة البسيط (SimVLM). على عكس الدراسات السابقة، يقلل SimVLM من تعقيد التدريب من خلال الاستفادة من مراقبة ضعيفة على نطاق واسع، ويتم تدريبه بشكل متكامل (end-to-end) باستخدام هدف واحد فقط هو نمذجة اللغة السابقة (prefix language modeling). وبلا استخدام بيانات إضافية أو تخصيصات مخصصة للمهام، يتفوق النموذج الناتج بشكل كبير على الطرق السابقة للنمذجة المسبقة، ويحقق نتائج جديدة على مستوى الحد الأقصى (state-of-the-art) في مجموعة واسعة من المعايير التمييزية والتحليلية للغة والرؤية، بما في ذلك VQA (+3.74% في مقياس vqa-score)، NLVR2 (+1.17% في الدقة)، SNLI-VE (+1.37% في الدقة)، ومهام وصف الصور (+10.1% في متوسط درجة CIDEr). علاوةً على ذلك، نُظهر أن SimVLM يكتسب قدرة قوية على التعميم والنقل، مما يمكّنه من أداء سلوك "صفر-التدريب" (zero-shot)، بما في ذلك الإجابة على الأسئلة البصرية المفتوحة والنقل عبر الوسائط.