HyperAIHyperAI
منذ 2 أشهر

الشيطان في الرمز الزمني: تقسيم الاستدلال الفيديوي عالي الجودة

Sitong Gong; Yunzhi Zhuge; Lu Zhang; Zongxin Yang; Pingping Zhang; Huchuan Lu
الشيطان في الرمز الزمني: تقسيم الاستدلال الفيديوي عالي الجودة
الملخص

الطرق الحالية لتقسيم الفيديو بالاستدلال تعتمد بشكل كبير على رمز خاص واحد لتمثيل الكائن في الإطار الرئيسي أو الفيديو بأكمله، مما لا يلبي بشكل كافٍ التعقيد المكاني والحركة بين الإطارات. لتجاوز هذه التحديات، نقترح VRS-HQ، وهي طريقة شاملة لتقسيم الفيديو بالاستدلال تستخدم نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) لإدخال ميزات زمانية-مكانية غنية إلى الرموز الهرمية. من أهم ابتكاراتنا هي التجميع الديناميكي الزماني (TDA) واختيار الإطار الرئيسي بقيادة الرمز (TKS). تحديداً، صممنا رموز على مستوى الإطار ورموز على المستوى الزماني التي تستفيد من التعلم الانحداري لنماذج اللغة الكبيرة متعددة الوسائط للتقاط المعلومات المحلية والعالمية بكفاءة. بعد ذلك، نطبق استراتيجية دمج مرجحة قائمة على التشابه واختيار الإطارات، ثم نستفيد من SAM2 لأداء تقسيم الإطار الرئيسي وانتشاره. لتحسين دقة تحديد موقع الإطار الرئيسي، يقوم TKS بتصفية الإطارات الرئيسية بناءً على درجات الاخفاء التي توفرها SAM2 خلال الاستدلال. حقق VRS-HQ أداءً فائقًا على ReVOS، حيث تفوق على VISA بنسبة 5.9٪/12.5٪/9.1٪ في درجات J&F عبر الثلاثة مجموعات الفرعية. تؤكد هذه النتائج قوة قدرات الاستدلال الزمني والتقسيم في طريقتنا. سيتم إصدار الشيفرة البرمجية وأوزان النموذج في VRS-HQ.

الشيطان في الرمز الزمني: تقسيم الاستدلال الفيديوي عالي الجودة | أحدث الأوراق البحثية | HyperAI