HyperAIHyperAI
منذ 11 أيام

FLAVA: نموذج أساسي للتوافق بين اللغة والرؤية

Amanpreet Singh, Ronghang Hu, Vedanuj Goswami, Guillaume Couairon, Wojciech Galuba, Marcus Rohrbach, Douwe Kiela
FLAVA: نموذج أساسي للتوافق بين اللغة والرؤية
الملخص

تعتمد النماذج الحديثة في مجال الرؤية والرؤية واللغة على التدريب المسبق الواسع النطاق على بيانات مرئية ولغوية للحصول على أداء متميز في مجموعة متنوعة من المهام اللاحقة. عادةً ما تكون هذه النماذج إما متعددة الوسائط (باستخدام التباين) أو متقاطعة الوسائط (باستخدام دمج مبكر)، ولكنها نادرًا ما تكون كلاهما معًا؛ كما أن هذه النماذج غالبًا ما تركز فقط على وسائط أو مهام محددة. وتمثل الاتجاه الواعد هو استخدام نموذج موحد شامل وعام، كأساس، يهدف إلى معالجة جميع الوسائط في آن واحد — فعندما يكون النموذج الأساس الحقيقي في الرؤية واللغة، فإنه يجب أن يكون متميزًا في المهام المرئية، والمهام اللغوية، وكذلك في المهام المتعددة الوسائط والمتقاطعة بين الرؤية واللغة. نقدم في هذا العمل نموذج FLAVA كنموذج من هذا القبيل، ونُظهر أداءً مبهرًا في مجموعة واسعة من 35 مهمة تمتد عبر هذه الوسائط المستهدفة.

FLAVA: نموذج أساسي للتوافق بين اللغة والرؤية | أحدث الأوراق البحثية | HyperAI