HyperAIHyperAI
منذ 2 أشهر

VFIMamba: إدراجه الإطارات بين الفيديو باستخدام نماذج الفضاء الحالة

Guozhen Zhang; Chunxu Liu; Yutao Cui; Xiaotong Zhao; Kai Ma; Limin Wang
VFIMamba: إدراجه الإطارات بين الفيديو باستخدام نماذج الفضاء الحالة
الملخص

النمذجة بين الإطارات هي عنصر أساسي في إنشاء الإطارات الوسيطة لتقريب الإطارات الفيديوية (VFI). تعتمد الأساليب الحالية بشكل كبير على النماذج القائمة على التحويل أو الانتباه، والتي غالباً ما تفتقر إلى مجالات استقبال كافية أو تتضمن أعباء حسابية كبيرة. مؤخراً، ظهرت نماذج الفضاء الحالة الاختيارية (S6)، وهي مصممة خصيصاً للنمذجة في التسلسلات الطويلة، وتقدم تعقيداً خطيًا وقدرات نمذجة تعتمد على البيانات. في هذا البحث، نقترح طريقة جديدة لتقريب الإطارات تُسمى VFIMamba، والتي تستفيد من نموذج S6 لتحقيق النمذجة بين الإطارات بكفاءة وديناميكية. يُدخل اقتراحنا كتلة SSM المختلطة (MSB)، التي تقوم أولاً بإعادة ترتيب الرموز من الإطارات المجاورة بطريقة متشابكة ومن ثم تطبق النمذجة S6 متعددة الاتجاهات. يسهل هذا التصميم نقل المعلومات بكفاءة عبر الإطارات مع الحفاظ على التعقيد الخطي. بالإضافة إلى ذلك، نقدم استراتيجية جديدة للتعلم المنهجي التي تطور بمرور الوقت قدرة النموذج على التعامل مع الديناميكيات بين الإطارات بمختلف أحجام الحركة، مما يطلق العنان لإمكانات نموذج S6 بالكامل. تظهر النتائج التجريبية أن طرحتنا تحصل على أفضل الأداء الحالي في مختلف المقاييس، خاصة في السيناريوهات ذات الدقة العالية. وبشكل خاص، على مجموعة بيانات X-TEST، يُظهر VFIMamba تحسيناً ملحوظاً بمقدار 0.80 ديسيبل لـ 4K وإطار 0.96 ديسيبل لـ 2K.