HyperAIHyperAI
منذ 2 أشهر

GroPrompt: التحفيز والتكيف الفعّال للمشاريع المرجعية في تقسيم الأشياء في الفيديو

Ci-Siang Lin; I-Jieh Liu; Min-Hung Chen; Chien-Yi Wang; Sifei Liu; Yu-Chiang Frank Wang
GroPrompt: التحفيز والتكيف الفعّال للمشاريع المرجعية في تقسيم الأشياء في الفيديو
الملخص

يهدف تقسيم الأشياء المرجعية في الفيديو (RVOS) إلى تقسيم الكائن المذكور في جملة الاستعلام على مدار الفيديو بأكمله. تتطلب معظم الطرق الحالية التدريب من النهاية إلى النهاية مع توضيحات كثيفة للقناع، مما قد يكون مكلفاً من حيث الحسابات وأقل قابلية للتوسع. في هذا العمل، نسعى لتكيف نماذج التقسيم الأساسية بكفاءة لمعالجة RVOS من الإشراف الضعيف باستخدام إطار الدفع المحدد (GroPrompt) المقترح. بشكل أكثر تحديداً، نقترح تعلم التباين بالدفع الواعي للنص (TAP-CL) لتعزيز الارتباط بين دفعات الموقع والجمل المرجعية باستخدام إشراف الصناديق فقط، بما في ذلك تعلم التباين بالدفع النصي (TextCon) وتعلم التباين بالدفع متعدد الوسائط (ModalCon) على مستوى الإطار وعلى مستوى الفيديو، على التوالي. بفضل TAP-CL المقترح، يمكن لإطار GroPrompt الخاص بنا إنشاء دفعات موقع متسقة زمنياً ومعتمدة على النص تصف مواقع وحركات الكائن المرجعي من الفيديو. تظهر نتائج التجارب في مقاييس RVOS القياسية (Ref-YouTube-VOS، Ref-DAVIS17، A2D-Sentences، و JHMDB-Sentences) الأداء التنافسي لإطار GroPrompt المقترح عند استخدام إشراف الصناديق الضعيفة فقط.

GroPrompt: التحفيز والتكيف الفعّال للمشاريع المرجعية في تقسيم الأشياء في الفيديو | أحدث الأوراق البحثية | HyperAI