VisualBERT: قاعدة بسيطة وفعالة للرؤية واللغة

نقترح إطارًا بسيطًا ومروّنًا يُسمى VisualBERT لنمذجة مجموعة واسعة من المهام التي تجمع بين الرؤية واللغة. يتكون VisualBERT من طبقات متراكمة من نماذج Transformer التي تقوم بشكل ضمني بمطابقة عناصر النص الإدخالي ومناطق الصورة المرتبطة به باستخدام آلية الانتباه الذاتي (self-attention). كما نقترح هدفين لنمذجة اللغة المرتكزة على الرؤية لتدريب VisualBERT مسبقًا على بيانات التسميات التوضيحية للصور. أظهرت التجارب على أربع مهام تتعلق بالرؤية واللغة، بما في ذلك VQA (Visual Question Answering)، VCR (Visual Commonsense Reasoning)، NLVR2 (Natural Language for Visual Reasoning 2)، وFlickr30K، أن VisualBERT يتفوق أو يوازي النماذج الأكثر تقدمًا في هذا المجال مع كونه أبسط بكثير. تُظهر التحليلات الإضافية أن VisualBERT قادر على ربط عناصر اللغة بمناطق الصورة دون أي إشراف صريح، وهو حساس حتى للعلاقات النحوية، مثل تتبع العلاقات بين الأفعال ومناطق الصورة المقابلة لمفعولاتها.