منذ 2 أشهر

التدريب المتأصل للصورة واللغة

Li, Liunian Harold ; Zhang, Pengchuan ; Zhang, Haotian ; Yang, Jianwei ; Li, Chunyuan ; Zhong, Yiwu ; Wang, Lijuan ; Yuan, Lu ; Zhang, Lei ; Hwang, Jenq-Neng ; Chang, Kai-Wei ; Gao, Jianfeng

عرض تفاصيل الورقة البحثية

الملخص

يقدم هذا البحث نموذجًا مُرتكزًا للتدريب المسبق على اللغة والصورة (GLIP) لتعلم تمثيلات بصرية غنية بالمعنى ومُدركة للغة ومستوية الأشياء. يُوحِّد GLIP كلاً من اكتشاف الأشياء وتثبيت الجمل في التدريب المسبق. تجلب هذه الوحدة فائدتين رئيسيتين: 1) تسمح لـ GLIP بتعلم البيانات من كلٍ من اكتشاف الأشياء وتثبيت الجمل، مما يحسن أداء كلا المهمتين ويُساعده على بناء نموذج جيد للتثبيت؛ 2) يمكن لـ GLIP الاستفادة من مجموعات ضخمة من أزواج الصور والنصوص بإنشاء صناديق تثبيت ذاتيًا، مما يجعل التمثيلات المُتعلَّمة غنية بالمعنى.في تجاربنا، قمنا بتدريب GLIP بشكل مسبق على 27 مليون مجموعة بيانات للتثبيت، بما في ذلك 3 ملايين صورة-نص مشروحة بيد الإنسان و24 مليون زوج صورة-نص تم جمعها من الإنترنت. أظهرت التمثيلات المُتعلَّمة قوةً كبيرةً في النقل بدون أمثلة (zero-shot) وبأمثلة قليلة (few-shot) إلى مهام مختلفة للاعتراف بالأشياء المستوية. 1) عند تقييمه مباشرةً على COCO وLVIS (بدون رؤية أي صور في COCO خلال التدريب المسبق)، حقق GLIP دقة AP 49.8 و26.9 على التوالي، مما يتفوق على العديد من الخطوط الأساسية الخاضعة للإشراف.2) بعد التعديل الدقيق على COCO، حقق GLIP دقة AP 60.8 في مجموعة التحقق (val) ودقة AP 61.5 في مجموعة الاختبار-التطوير (test-dev)، مما يتفوق على أفضل النتائج السابقة.3) عند نقله إلى 13 مهمة اكتشاف أشياء ثانوية، تنافس نموذج GLIP ذو الأمثلة الواحدة مع نموذج الرأس الديناميكي الخاضع للإشراف الكامل.تم إطلاق الكود في https://github.com/microsoft/GLIP.