HyperAIHyperAI

Command Palette

Search for a command to run...

FLAVA: نموذج أساسي للتوافق بين اللغة والرؤية

Amanpreet Singh Ronghang Hu Vedanuj Goswami Guillaume Couairon Wojciech Galuba Marcus Rohrbach Douwe Kiela

الملخص

تعتمد النماذج الحديثة في مجال الرؤية والرؤية واللغة على التدريب المسبق الواسع النطاق على بيانات مرئية ولغوية للحصول على أداء متميز في مجموعة متنوعة من المهام اللاحقة. عادةً ما تكون هذه النماذج إما متعددة الوسائط (باستخدام التباين) أو متقاطعة الوسائط (باستخدام دمج مبكر)، ولكنها نادرًا ما تكون كلاهما معًا؛ كما أن هذه النماذج غالبًا ما تركز فقط على وسائط أو مهام محددة. وتمثل الاتجاه الواعد هو استخدام نموذج موحد شامل وعام، كأساس، يهدف إلى معالجة جميع الوسائط في آن واحد — فعندما يكون النموذج الأساس الحقيقي في الرؤية واللغة، فإنه يجب أن يكون متميزًا في المهام المرئية، والمهام اللغوية، وكذلك في المهام المتعددة الوسائط والمتقاطعة بين الرؤية واللغة. نقدم في هذا العمل نموذج FLAVA كنموذج من هذا القبيل، ونُظهر أداءً مبهرًا في مجموعة واسعة من 35 مهمة تمتد عبر هذه الوسائط المستهدفة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp