HyperAIHyperAI

Command Palette

Search for a command to run...

الشيطان في الرمز الزمني: تقسيم الاستدلال الفيديوي عالي الجودة

Sitong Gong; Yunzhi Zhuge; Lu Zhang; Zongxin Yang; Pingping Zhang; Huchuan Lu

الملخص

الطرق الحالية لتقسيم الفيديو بالاستدلال تعتمد بشكل كبير على رمز خاص واحد لتمثيل الكائن في الإطار الرئيسي أو الفيديو بأكمله، مما لا يلبي بشكل كافٍ التعقيد المكاني والحركة بين الإطارات. لتجاوز هذه التحديات، نقترح VRS-HQ، وهي طريقة شاملة لتقسيم الفيديو بالاستدلال تستخدم نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) لإدخال ميزات زمانية-مكانية غنية إلى الرموز الهرمية. من أهم ابتكاراتنا هي التجميع الديناميكي الزماني (TDA) واختيار الإطار الرئيسي بقيادة الرمز (TKS). تحديداً، صممنا رموز على مستوى الإطار ورموز على المستوى الزماني التي تستفيد من التعلم الانحداري لنماذج اللغة الكبيرة متعددة الوسائط للتقاط المعلومات المحلية والعالمية بكفاءة. بعد ذلك، نطبق استراتيجية دمج مرجحة قائمة على التشابه واختيار الإطارات، ثم نستفيد من SAM2 لأداء تقسيم الإطار الرئيسي وانتشاره. لتحسين دقة تحديد موقع الإطار الرئيسي، يقوم TKS بتصفية الإطارات الرئيسية بناءً على درجات الاخفاء التي توفرها SAM2 خلال الاستدلال. حقق VRS-HQ أداءً فائقًا على ReVOS، حيث تفوق على VISA بنسبة 5.9٪/12.5٪/9.1٪ في درجات J&F عبر الثلاثة مجموعات الفرعية. تؤكد هذه النتائج قوة قدرات الاستدلال الزمني والتقسيم في طريقتنا. سيتم إصدار الشيفرة البرمجية وأوزان النموذج في VRS-HQ.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الشيطان في الرمز الزمني: تقسيم الاستدلال الفيديوي عالي الجودة | مستندات | HyperAI