HyperAIHyperAI
منذ 18 أيام

VIVO: التدريب المسبق على المفردات البصرية لوصف الكائنات الجديدة

Xiaowei Hu, Xi Yin, Kevin Lin, Lijuan Wang, Lei Zhang, Jianfeng Gao, Zicheng Liu
VIVO: التدريب المسبق على المفردات البصرية لوصف الكائنات الجديدة
الملخص

من المطلوب للغاية ولكن من الصعب تحقيقه إنشاء وصفات صور قادرة على وصف كائنات جديدة لم تُرَ في بيانات التدريب التي تحمل وصفًا مُعلّقًا عليها، وهي قدرة تُقاس في تحدي وصف الكائنات الجديدة (nocaps). في هذا التحدي، لا يُسمح باستخدام أي بيانات تدريب إضافية للصور مع الوصف (image-caption)، سوى بيانات COCO Captions، مما يجعل من المستحيل تطبيق الطرق التقليدية للتدريب المسبق بين الرؤية واللغة (VLP). تقدم هذه الورقة نموذجًا يُسمى VIsual VOcabulary pretraining (VIVO)، الذي يُجري التدريب المسبق دون الحاجة إلى بيانات وصفات مُعلّقة بالصور. وبفضل كسر الاعتماد على بيانات التدريب المرتبطة بصورة مزدوجة (صورة-وصف)، يمكن لـ VIVO الاستفادة من كميات كبيرة من البيانات المرتبطة بصورة مزدوجة (صورة-علامة)، بهدف تعلم مفردات بصرية. يتم ذلك من خلال تدريب نموذج متعدد الطبقات من نوع Transformer يتعلم محاذاة العلامات على مستوى الصورة مع ميزات مناطق الصورة المقابلة. ولحل طبيعة العلامات غير المرتبة في الصور، يستخدم VIVO خسارة مطابقة هنغارية (Hungarian matching loss) مع تنبؤ مُقنّع للعلامات (masked tag prediction) أثناء التدريب المسبق. وقد تم التحقق من فعالية VIVO من خلال تحسين النموذج المُدرّب مسبقًا لمهام وصف الصور. بالإضافة إلى ذلك، أجرينا تحليلًا لمحاذاة الصور والنصوص المستنتجة من نموذجنا. تُظهر النتائج أن النموذج قادِر ليس فقط على إنتاج وصفات صور سلسة تصف كائنات جديدة، بل أيضًا على تحديد مواقع هذه الكائنات بدقة. وقد حقق نموذجنا الواحد نتائج جديدة قياسية على مجموعة بيانات nocaps، متفوّقًا على درجة CIDEr البشرية.

VIVO: التدريب المسبق على المفردات البصرية لوصف الكائنات الجديدة | أحدث الأوراق البحثية | HyperAI