HyperAIHyperAI

Command Palette

Search for a command to run...

التحليل المرجعي للكائنات في الفيديو متعدد الحدود الموجه بالطيف

Bo Miao Mohammed Bennamoun Yongsheng Gao Ajmal Mian

الملخص

تستخرج تقنيات التجزئة الحالية للكائنات في الفيديو المرجعي (R-VOS) نوى شرطية من السمات البصرية-اللغوية المشفرة (عالية الدقة منخفضة) لتمييز السمات المُفكَّكة عالية الدقة. ووجدنا أن هذا يسبب انحرافًا كبيرًا في السمات، مما يُعَقِّد على النوى التمييزية اكتشافه أثناء الحساب التصاعدي. وهذا يؤثر سلبًا على قدرة النوى التمييزية. ولحل مشكلة الانحراف هذه، نقترح نهجًا يُدعى "الذكاء الطيفي متعدد الحُدود" (SgMg)، الذي يُجري التمييز مباشرة على السمات المشفرة، ويستخدم التفاصيل البصرية لتحسين الأقنعة بشكل إضافي. علاوةً على ذلك، نقترح "دمج العوامل المتعددة الوسائط الموجه بالطيف" (SCF) لتنفيذ تفاعلات عالمية داخل الإطار في المجال الطيفي، بهدف تمثيل متعدد الوسائط فعّال. وأخيرًا، نوسع نموذج SgMg ليُنفِّذ التجزئة متعددة الكائنات في الفيديو المرجعي (multi-object R-VOS)، وهو نموذج جديد يتيح التمييز المتزامن لكائنات متعددة في الفيديو. وهذا لا يُسرّع عملية R-VOS فحسب، بل يجعلها أكثر عملية أيضًا. أظهرت التجارب الواسعة أن SgMg يحقق أداءً من الدرجة الأولى على أربع مجموعات بيانات معيارية للفيديو، متفوّقًا على أقرب منافس بنسبة 2.8% على مجموعة بيانات Ref-YouTube-VOS. ويساهم النموذج الموسّع لـ SgMg في تمكين التجزئة متعددة الكائنات، مع تسريع الأداء بحوالي ثلاث مرات مع الحفاظ على أداء مرضٍ. يمكن الاطلاع على الكود عبر الرابط: https://github.com/bo-miao/SgMg.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp