منذ 8 أشهر

الملخص

يهدف تقسيم الأشياء في الفيديو بالرجوع إلى النص (RVOS) إلى تقسيم الأشياء في الفيديو وفقًا للوصف النصي، مما يتطلب دمج المعلومات متعددة الوسائط وإدراك الديناميكيات الزمنية. أثبت نموذج تقسيم أي شيء 2 (SAM 2) فعاليته الكبيرة في مهام التقسيم الفيديوي المختلفة. ومع ذلك، فإن تطبيقه على RVOS غير المتصل يواجه تحديات بسبب تحويل النص إلى تعليمات فعالة وعدم وجود وعي سياقي عالمي. في هذا البحث، نقترح إطارًا جديدًا لـ RVOS يُسمى MPG-SAM 2 لمعالجة هذه التحديات. بصفة خاصة، يستخدم MPG-SAM 2 مُشفِّر متعدد الوسائط موحدًا لترميز الخصائص الفيديوية والنصية معًا، مما ينتج تمثيلات فيديو ونص متماثلة معانيًا بالإضافة إلى رموز فئات متعددة الوسائط. يستخدم جهاز إنشاء الأولوية للقناع التمثيلات الفيديوية ورموز الفئات لإنشاء قناع افتراضي للأهداف والسياق العالمي. يتم تغذية هذه القناعات إلى مُشفِّر التعليمات كتعليمات كثيفة مع رموز فئات متعددة الوسائط كتعليمات نادرة لتوليد تعليمات دقيقة لـ SAM 2. لتقديم رؤية عالمية لنظام SAM 2 عبر الإنترنت، نقدم جامعًا تاريخيًا عالميًا هرميًا، والذي يتيح لـ SAM 2 جمع المعلومات العالمية والتاريخية للأهداف على مستويي البكسل والأشياء، مما يعزز تمثيل الهدف والتوافق الزمني. تظهر التجارب الموسعة على عدة مقاييس لـ RVOS تفوق MPG-SAM 2 وفعالية الوحدات المقترحة لدينا.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Fu Rong Meng Lan Qian Zhang Lefei Zhang*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Fu Rong Meng Lan Qian Zhang Lefei Zhang*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Fu Rong Meng Lan Qian Zhang Lefei Zhang*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MPG-SAM 2: تكييف SAM 2 باستخدام الأولويات التوضيحية والسياق العالمي لتقسيم الأشياء في الفيديو بالرجوع إليها

Fu Rong Meng Lan Qian Zhang Lefei Zhang*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MPG-SAM 2: تكييف SAM 2 باستخدام الأولويات التوضيحية والسياق العالمي لتقسيم الأشياء في الفيديو بالرجوع إليها

Fu Rong Meng Lan Qian Zhang Lefei Zhang*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MPG-SAM 2: تكييف SAM 2 باستخدام الأولويات التوضيحية والسياق العالمي لتقسيم الأشياء في الفيديو بالرجوع إليها

Fu Rong Meng Lan Qian Zhang Lefei Zhang*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters