منذ 8 أشهر

الملخص

في هذا البحث، نقدم أولاً مجموعة بيانات (X4K1000FPS) تتضمن مقاطع فيديو بدقة 4K بمعدل 1000 إطار في الثانية تحتوي على حركة شديدة إلى مجتمع البحث العلمي لاستخدامها في تقنية توصيل الإطارات الفيديوية (VFI)، ونقترح شبكة VFI متطرفة، تُسمى XVFI-Net، والتي تعالج أولاً مشكلة توصيل الإطارات الفيديوية لمقاطع الفيديو بدقة 4K ذات الحركة الكبيرة. تعتمد الشبكة XVFI-Net على هيكل مشاركة متكرر متعدد المقاييس يتكون من وحدتين متتابعتين؛ الأولى لمعرفة التدفق البصري الثنائي الاتجاه بين الإطارات المدخلة (BiOF-I)، والثانية لمعرفة التدفق البصري الثنائي الاتجاه من الإطار المستهدف إلى الإطارات المدخلة (BiOF-T). يتم تقريب التدفقات البصرية بشكل مستقر بواسطة عملية عكس التدفق المكملة (CFR) المقترحة في وحدة BiOF-T. أثناء الاستنتاج، يمكن لوحدة BiOF-I أن تبدأ بمقاس أي إطارات مدخلة بينما تعمل وحدة BiOF-T فقط بالمقاس الأصلي للإطارات المدخلة، مما يتيح تسريع الاستنتاج مع الحفاظ على أداء VFI دقيق للغاية. تظهر النتائج التجريبية الواسعة أن شبكتنا XVFI-Net قادرة بنجاح على التقاط المعلومات الأساسية للأجسام ذات الحركات الشديدة والأنسجة المعقدة بينما تظهر الأساليب الرائدة أداءً ضعيفًا. بالإضافة إلى ذلك، يحقق إطار عمل شبكتنا XVFI-Net أيضًا نتائج مقاربة على مجموعة البيانات المرجعية السابقة بدقة أقل، مما يدل على صلابة خوارزميتنا أيضًا. جميع كودات المصدر والنموذج المُدرَّب مسبقًا ومجموعات البيانات المقترحة X4K1000FPS متاحة للعموم على الرابط https://github.com/JihyongOh/XVFI.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار