VinVL: إعادة النظر في التمثيلات البصرية في نماذج الرؤية واللغة

تُقدّم هذه الورقة دراسة مفصلة لتحسين التمثيلات البصرية المُستخدمة في المهام المتعددة بين الرؤية واللغة (VL)، وتطوير نموذج مُحسّن للكشف عن الكائنات يُوفّر تمثيلات مركزية على الكائنات في الصور. مقارنةً بالنموذج الأكثر شيوعًا من نوع \emph{من الأسفل إلى الأعلى ومن الأعلى إلى الأسفل} \cite{anderson2018bottom}، فإن النموذج الجديد أكبر حجمًا، وأُعدّ بشكل أفضل لمهام الرؤية واللغة، وتم تدريبه مسبقًا على مجموعات تدريب كبيرة جدًا تدمج عدة مجموعات بيانات معتمدة علنًا للكشف عن الكائنات. وبذلك، يمكنه إنتاج تمثيلات لعدد أكبر من الكائنات والمعاني البصرية. في حين ركّزت الأبحاث السابقة في مجال الرؤية واللغة بشكل رئيسي على تحسين نماذج دمج الرؤية واللغة، وتركت تحسين نموذج الكشف عن الكائنات دون اهتمام، نُظهر في هذه الدراسة أن الخصائص البصرية تُعدّ عاملًا مؤثرًا بشكل كبير في نماذج الرؤية واللغة. في تجاربنا، نُدخل الخصائص البصرية الناتجة عن النموذج الجديد للكشف عن الكائنات إلى نموذج دمج VL مبني على مُحول (Transformer) يُسمّى \oscar \cite{li2020oscar}، ونستخدم منهجية مُحسّنة \short\ لتدريب النموذج مسبقًا وتحسينه لمهام VL المُستقبلية على نطاق واسع. تُظهر النتائج أن الخصائص البصرية الجديدة تُحسّن بشكل ملحوظ الأداء في جميع مهام VL، وتُحقّق نتائجًا جديدة قياسية على سبعة معايير عامة. وسوف نُطلق النموذج الجديد للكشف عن الكائنات للجمهور.