منذ 6 أشهر

الملخص

من المطلوب للغاية ولكن من الصعب تحقيقه إنشاء وصفات صور قادرة على وصف كائنات جديدة لم تُرَ في بيانات التدريب التي تحمل وصفًا مُعلّقًا عليها، وهي قدرة تُقاس في تحدي وصف الكائنات الجديدة (nocaps). في هذا التحدي، لا يُسمح باستخدام أي بيانات تدريب إضافية للصور مع الوصف (image-caption)، سوى بيانات COCO Captions، مما يجعل من المستحيل تطبيق الطرق التقليدية للتدريب المسبق بين الرؤية واللغة (VLP). تقدم هذه الورقة نموذجًا يُسمى VIsual VOcabulary pretraining (VIVO)، الذي يُجري التدريب المسبق دون الحاجة إلى بيانات وصفات مُعلّقة بالصور. وبفضل كسر الاعتماد على بيانات التدريب المرتبطة بصورة مزدوجة (صورة-وصف)، يمكن لـ VIVO الاستفادة من كميات كبيرة من البيانات المرتبطة بصورة مزدوجة (صورة-علامة)، بهدف تعلم مفردات بصرية. يتم ذلك من خلال تدريب نموذج متعدد الطبقات من نوع Transformer يتعلم محاذاة العلامات على مستوى الصورة مع ميزات مناطق الصورة المقابلة. ولحل طبيعة العلامات غير المرتبة في الصور، يستخدم VIVO خسارة مطابقة هنغارية (Hungarian matching loss) مع تنبؤ مُقنّع للعلامات (masked tag prediction) أثناء التدريب المسبق. وقد تم التحقق من فعالية VIVO من خلال تحسين النموذج المُدرّب مسبقًا لمهام وصف الصور. بالإضافة إلى ذلك، أجرينا تحليلًا لمحاذاة الصور والنصوص المستنتجة من نموذجنا. تُظهر النتائج أن النموذج قادِر ليس فقط على إنتاج وصفات صور سلسة تصف كائنات جديدة، بل أيضًا على تحديد مواقع هذه الكائنات بدقة. وقد حقق نموذجنا الواحد نتائج جديدة قياسية على مجموعة بيانات nocaps، متفوّقًا على درجة CIDEr البشرية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Xiaowei Hu Xi Yin Kevin Lin Lijuan Wang Lei Zhang Jianfeng Gao Zicheng Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Xiaowei Hu Xi Yin Kevin Lin Lijuan Wang Lei Zhang Jianfeng Gao Zicheng Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Xiaowei Hu Xi Yin Kevin Lin Lijuan Wang Lei Zhang Jianfeng Gao Zicheng Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VIVO: التدريب المسبق على المفردات البصرية لوصف الكائنات الجديدة

Xiaowei Hu Xi Yin Kevin Lin Lijuan Wang Lei Zhang Jianfeng Gao Zicheng Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VIVO: التدريب المسبق على المفردات البصرية لوصف الكائنات الجديدة

Xiaowei Hu Xi Yin Kevin Lin Lijuan Wang Lei Zhang Jianfeng Gao Zicheng Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VIVO: التدريب المسبق على المفردات البصرية لوصف الكائنات الجديدة

Xiaowei Hu Xi Yin Kevin Lin Lijuan Wang Lei Zhang Jianfeng Gao Zicheng Liu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters