HyperAIHyperAI
منذ 2 أشهر

XVFI: الترقيم المتطرف للكадرات الفيديو

Sim, Hyeonjun ; Oh, Jihyong ; Kim, Munchurl
XVFI: الترقيم المتطرف للكадرات الفيديو
الملخص

في هذا البحث، نقدم أولاً مجموعة بيانات (X4K1000FPS) تتضمن مقاطع فيديو بدقة 4K بمعدل 1000 إطار في الثانية تحتوي على حركة شديدة إلى مجتمع البحث العلمي لاستخدامها في تقنية توصيل الإطارات الفيديوية (VFI)، ونقترح شبكة VFI متطرفة، تُسمى XVFI-Net، والتي تعالج أولاً مشكلة توصيل الإطارات الفيديوية لمقاطع الفيديو بدقة 4K ذات الحركة الكبيرة. تعتمد الشبكة XVFI-Net على هيكل مشاركة متكرر متعدد المقاييس يتكون من وحدتين متتابعتين؛ الأولى لمعرفة التدفق البصري الثنائي الاتجاه بين الإطارات المدخلة (BiOF-I)، والثانية لمعرفة التدفق البصري الثنائي الاتجاه من الإطار المستهدف إلى الإطارات المدخلة (BiOF-T). يتم تقريب التدفقات البصرية بشكل مستقر بواسطة عملية عكس التدفق المكملة (CFR) المقترحة في وحدة BiOF-T. أثناء الاستنتاج، يمكن لوحدة BiOF-I أن تبدأ بمقاس أي إطارات مدخلة بينما تعمل وحدة BiOF-T فقط بالمقاس الأصلي للإطارات المدخلة، مما يتيح تسريع الاستنتاج مع الحفاظ على أداء VFI دقيق للغاية. تظهر النتائج التجريبية الواسعة أن شبكتنا XVFI-Net قادرة بنجاح على التقاط المعلومات الأساسية للأجسام ذات الحركات الشديدة والأنسجة المعقدة بينما تظهر الأساليب الرائدة أداءً ضعيفًا. بالإضافة إلى ذلك، يحقق إطار عمل شبكتنا XVFI-Net أيضًا نتائج مقاربة على مجموعة البيانات المرجعية السابقة بدقة أقل، مما يدل على صلابة خوارزميتنا أيضًا. جميع كودات المصدر والنموذج المُدرَّب مسبقًا ومجموعات البيانات المقترحة X4K1000FPS متاحة للعموم على الرابط https://github.com/JihyongOh/XVFI.