HyperAIHyperAI
منذ 2 أشهر

GSVA: التجزئة المعممة عبر نماذج اللغة الكبيرة متعددة الوسائط

Xia, Zhuofan ; Han, Dongchen ; Han, Yizeng ; Pan, Xuran ; Song, Shiji ; Huang, Gao
GSVA: التجزئة المعممة عبر نماذج اللغة الكبيرة متعددة الوسائط
الملخص

يتوسع تقسيم التعبيرات المرجعية المعممة (GRES) في نطاق التعبيرات المرجعية الكلاسيكية (RES) لتشمل الإشارة إلى عدة أشياء في تعبير واحد أو تحديد الأهداف الفارغة التي لا توجد في الصورة. يطرح GRES تحديات في نمذجة العلاقات المكانية المعقدة للحالات في الصورة وتحديد المرجعيات غير الموجودة. أظهرت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) مؤخرًا تقدمًا هائلًا في هذه المهام المعقدة المتعلقة بالرؤية واللغة. من خلال ربط نماذج اللغة الكبيرة (LLMs) والنماذج البصرية، أصبحت MLLMs ماهرة في فهم السياقات مع المدخلات البصرية. من بينها، تعتبر LISA مثالاً بارزًا حيث تتبنى رمزًا خاصًا [SEG] لتحفيز محرك فك رموز القناع التقسيمي، مثل SAM، مما يمكن MLLMs من مهمة RES. ومع ذلك، ظلت الحلول الحالية لـ GRES غير مرضية لأن النماذج التقسيمية MLLM الحالية لا تستطيع التعامل بشكل صحيح مع الحالات التي قد يشير فيها المستخدمون إلى عدة مواضيع في دعوة واحدة أو تقديم وصف غير متناسق مع أي هدف صوري. في هذا البحث، نقترح مساعد الرؤية التقسيمية المعمم (GSVA) لسد هذه الثغرة. بوجه خاص، يقوم GSVA بإعادة استخدام رمز [SEG] لتحفيز النموذج التقسيمي نحو دعم إشارات القناع المتعددة بشكل متزامن ويتعلم بطريقة مبتكرة إنتاج رمز [REJ] لرفض الأهداف الفارغة بشكل صريح. تؤكد التجارب فعالية GSVA في حل مشكلة GRES، مما يمثل تحسينًا ملحوظًا ويضع سجلًا جديدًا على مجموعة بيانات gRefCOCO القياسية لـ GRES. كما أثبت GSVA فعاليته أيضًا في مختلف المهام التقليدية للتقسيم المرجعي والفهم.

GSVA: التجزئة المعممة عبر نماذج اللغة الكبيرة متعددة الوسائط | أحدث الأوراق البحثية | HyperAI