HyperAIHyperAI

Command Palette

Search for a command to run...

GLIPv2: دمج التحديد والفهم البصري-اللغوي

Haotian Zhang Pengchuan Zhang Xiaowei Hu Yen-Chun Chen Liunian Harold Li Xiyang Dai Lijuan Wang Lu Yuan Jenq-Neng Hwang Jianfeng Gao

الملخص

نقدّم نموذج GLIPv2، وهو نموذج فهم متعدد الوسائط مُثبت (grounded VL)، يُستخدم في مهام التحديد (مثل الكشف عن الكائنات، التجزئة الحقيقية) ومهام فهم البصريات واللغة (VL) (مثل الإجابة على الأسئلة المرئية، صياغة العناوين التوضيحية للصور). يتميّز GLIPv2 بتوحيدٍ أنيق بين التدريب المسبق للتحديد (localization pre-training) وتدريب البصريات واللغة (VLP) من خلال ثلاث مهام تدريب مسبق: تثبيت العبارات (phrase grounding) كإعادة صياغة للغة للغة للوظيفة التحديدية، والتعلم التبايني بين المناطق والكلمات (region-word contrastive learning) كمهمة تدريب مسبق جديدة للتعلم التبايني على مستوى المنطقة-الكلمة، ونمذجة اللغة المُقنّعة (masked language modeling). هذا التوحيد لا يبسّط الإجراء المتعدد المراحل السابق لتدريب VLP فحسب، بل يحقق أيضًا فوائد متبادلة بين مهام التحديد ومهام الفهم. تُظهر النتائج التجريبية أن نموذج GLIPv2 الواحد (حيث يتم مشاركة جميع أوزان النموذج) يحقق أداءً قريبًا من الحد الأقصى (SoTA) في مهام مختلفة للتحديد والفهم. كما يُظهر النموذج (1) أداءً قويًا في التكيّف الصفرية والقليلة (zero-shot وfew-shot) في مهام الكشف عن الكائنات ذات المفردات المفتوحة (open-vocabulary)، و(2) قدرة متميّزة على التثبيت (grounding) في مهام فهم البصريات واللغة. سيتم إصدار الكود على الرابط: https://github.com/microsoft/GLIP.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp