HyperAIHyperAI

Command Palette

Search for a command to run...

GroPrompt: التحفيز والتكيف الفعّال للمشاريع المرجعية في تقسيم الأشياء في الفيديو

Ci-Siang Lin I-Jieh Liu Min-Hung Chen Chien-Yi Wang Sifei Liu Yu-Chiang Frank Wang

الملخص

يهدف تقسيم الأشياء المرجعية في الفيديو (RVOS) إلى تقسيم الكائن المذكور في جملة الاستعلام على مدار الفيديو بأكمله. تتطلب معظم الطرق الحالية التدريب من النهاية إلى النهاية مع توضيحات كثيفة للقناع، مما قد يكون مكلفاً من حيث الحسابات وأقل قابلية للتوسع. في هذا العمل، نسعى لتكيف نماذج التقسيم الأساسية بكفاءة لمعالجة RVOS من الإشراف الضعيف باستخدام إطار الدفع المحدد (GroPrompt) المقترح. بشكل أكثر تحديداً، نقترح تعلم التباين بالدفع الواعي للنص (TAP-CL) لتعزيز الارتباط بين دفعات الموقع والجمل المرجعية باستخدام إشراف الصناديق فقط، بما في ذلك تعلم التباين بالدفع النصي (TextCon) وتعلم التباين بالدفع متعدد الوسائط (ModalCon) على مستوى الإطار وعلى مستوى الفيديو، على التوالي. بفضل TAP-CL المقترح، يمكن لإطار GroPrompt الخاص بنا إنشاء دفعات موقع متسقة زمنياً ومعتمدة على النص تصف مواقع وحركات الكائن المرجعي من الفيديو. تظهر نتائج التجارب في مقاييس RVOS القياسية (Ref-YouTube-VOS، Ref-DAVIS17، A2D-Sentences، و JHMDB-Sentences) الأداء التنافسي لإطار GroPrompt المقترح عند استخدام إشراف الصناديق الضعيفة فقط.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp