منذ 11 أيام

GLIPv2: دمج التحديد والفهم البصري-اللغوي

Haotian Zhang, Pengchuan Zhang, Xiaowei Hu, Yen-Chun Chen, Liunian Harold Li, Xiyang Dai, Lijuan Wang, Lu Yuan, Jenq-Neng Hwang, Jianfeng Gao

عرض تفاصيل الورقة البحثية

GLIPv2: دمج التحديد والفهم البصري-اللغوي

الملخص

نقدّم نموذج GLIPv2، وهو نموذج فهم متعدد الوسائط مُثبت (grounded VL)، يُستخدم في مهام التحديد (مثل الكشف عن الكائنات، التجزئة الحقيقية) ومهام فهم البصريات واللغة (VL) (مثل الإجابة على الأسئلة المرئية، صياغة العناوين التوضيحية للصور). يتميّز GLIPv2 بتوحيدٍ أنيق بين التدريب المسبق للتحديد (localization pre-training) وتدريب البصريات واللغة (VLP) من خلال ثلاث مهام تدريب مسبق: تثبيت العبارات (phrase grounding) كإعادة صياغة للغة للغة للوظيفة التحديدية، والتعلم التبايني بين المناطق والكلمات (region-word contrastive learning) كمهمة تدريب مسبق جديدة للتعلم التبايني على مستوى المنطقة-الكلمة، ونمذجة اللغة المُقنّعة (masked language modeling). هذا التوحيد لا يبسّط الإجراء المتعدد المراحل السابق لتدريب VLP فحسب، بل يحقق أيضًا فوائد متبادلة بين مهام التحديد ومهام الفهم. تُظهر النتائج التجريبية أن نموذج GLIPv2 الواحد (حيث يتم مشاركة جميع أوزان النموذج) يحقق أداءً قريبًا من الحد الأقصى (SoTA) في مهام مختلفة للتحديد والفهم. كما يُظهر النموذج (1) أداءً قويًا في التكيّف الصفرية والقليلة (zero-shot وfew-shot) في مهام الكشف عن الكائنات ذات المفردات المفتوحة (open-vocabulary)، و(2) قدرة متميّزة على التثبيت (grounding) في مهام فهم البصريات واللغة. سيتم إصدار الكود على الرابط: https://github.com/microsoft/GLIP.