الملخص

تعتمد النماذج الحديثة في مجال الرؤية والرؤية واللغة على التدريب المسبق الواسع النطاق على بيانات مرئية ولغوية للحصول على أداء متميز في مجموعة متنوعة من المهام اللاحقة. عادةً ما تكون هذه النماذج إما متعددة الوسائط (باستخدام التباين) أو متقاطعة الوسائط (باستخدام دمج مبكر)، ولكنها نادرًا ما تكون كلاهما معًا؛ كما أن هذه النماذج غالبًا ما تركز فقط على وسائط أو مهام محددة. وتمثل الاتجاه الواعد هو استخدام نموذج موحد شامل وعام، كأساس، يهدف إلى معالجة جميع الوسائط في آن واحد — فعندما يكون النموذج الأساس الحقيقي في الرؤية واللغة، فإنه يجب أن يكون متميزًا في المهام المرئية، والمهام اللغوية، وكذلك في المهام المتعددة الوسائط والمتقاطعة بين الرؤية واللغة. نقدم في هذا العمل نموذج FLAVA كنموذج من هذا القبيل، ونُظهر أداءً مبهرًا في مجموعة واسعة من 35 مهمة تمتد عبر هذه الوسائط المستهدفة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار