HyperAIHyperAI

Command Palette

Search for a command to run...

VIVO: التدريب المسبق على المفردات البصرية لوصف الكائنات الجديدة

Xiaowei Hu Xi Yin Kevin Lin Lijuan Wang Lei Zhang Jianfeng Gao Zicheng Liu

الملخص

من المطلوب للغاية ولكن من الصعب تحقيقه إنشاء وصفات صور قادرة على وصف كائنات جديدة لم تُرَ في بيانات التدريب التي تحمل وصفًا مُعلّقًا عليها، وهي قدرة تُقاس في تحدي وصف الكائنات الجديدة (nocaps). في هذا التحدي، لا يُسمح باستخدام أي بيانات تدريب إضافية للصور مع الوصف (image-caption)، سوى بيانات COCO Captions، مما يجعل من المستحيل تطبيق الطرق التقليدية للتدريب المسبق بين الرؤية واللغة (VLP). تقدم هذه الورقة نموذجًا يُسمى VIsual VOcabulary pretraining (VIVO)، الذي يُجري التدريب المسبق دون الحاجة إلى بيانات وصفات مُعلّقة بالصور. وبفضل كسر الاعتماد على بيانات التدريب المرتبطة بصورة مزدوجة (صورة-وصف)، يمكن لـ VIVO الاستفادة من كميات كبيرة من البيانات المرتبطة بصورة مزدوجة (صورة-علامة)، بهدف تعلم مفردات بصرية. يتم ذلك من خلال تدريب نموذج متعدد الطبقات من نوع Transformer يتعلم محاذاة العلامات على مستوى الصورة مع ميزات مناطق الصورة المقابلة. ولحل طبيعة العلامات غير المرتبة في الصور، يستخدم VIVO خسارة مطابقة هنغارية (Hungarian matching loss) مع تنبؤ مُقنّع للعلامات (masked tag prediction) أثناء التدريب المسبق. وقد تم التحقق من فعالية VIVO من خلال تحسين النموذج المُدرّب مسبقًا لمهام وصف الصور. بالإضافة إلى ذلك، أجرينا تحليلًا لمحاذاة الصور والنصوص المستنتجة من نموذجنا. تُظهر النتائج أن النموذج قادِر ليس فقط على إنتاج وصفات صور سلسة تصف كائنات جديدة، بل أيضًا على تحديد مواقع هذه الكائنات بدقة. وقد حقق نموذجنا الواحد نتائج جديدة قياسية على مجموعة بيانات nocaps، متفوّقًا على درجة CIDEr البشرية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VIVO: التدريب المسبق على المفردات البصرية لوصف الكائنات الجديدة | مستندات | HyperAI