FLAVA: نموذج أساسي للتوافق بين اللغة والرؤية

تعتمد النماذج الحديثة في مجال الرؤية والرؤية واللغة على التدريب المسبق الواسع النطاق على بيانات مرئية ولغوية للحصول على أداء متميز في مجموعة متنوعة من المهام اللاحقة. عادةً ما تكون هذه النماذج إما متعددة الوسائط (باستخدام التباين) أو متقاطعة الوسائط (باستخدام دمج مبكر)، ولكنها نادرًا ما تكون كلاهما معًا؛ كما أن هذه النماذج غالبًا ما تركز فقط على وسائط أو مهام محددة. وتمثل الاتجاه الواعد هو استخدام نموذج موحد شامل وعام، كأساس، يهدف إلى معالجة جميع الوسائط في آن واحد — فعندما يكون النموذج الأساس الحقيقي في الرؤية واللغة، فإنه يجب أن يكون متميزًا في المهام المرئية، والمهام اللغوية، وكذلك في المهام المتعددة الوسائط والمتقاطعة بين الرؤية واللغة. نقدم في هذا العمل نموذج FLAVA كنموذج من هذا القبيل، ونُظهر أداءً مبهرًا في مجموعة واسعة من 35 مهمة تمتد عبر هذه الوسائط المستهدفة.