HyperAIHyperAI
منذ 9 أيام

SDC-Net: تنبؤ بالفيديو باستخدام التحويم المكاني المُتَنَقِّص

{Kevin J. Shih, Jon Barker, Andrew Tao, Robert Kirby, Guilin Liu, Fitsum A. Reda, David Tarjan, Bryan Catanzaro}
SDC-Net: تنبؤ بالفيديو باستخدام التحويم المكاني المُتَنَقِّص
الملخص

نقدّم نهجًا لتنبؤ إطار فيديو عالي الدقة من خلال التكيّف مع الإطارات السابقة والتدفقات البصرية السابقة. تعتمد الطرق السابقة على إعادة عينة الإطارات السابقة، بمراعاة تدفق بصري مستقبلي تم تعلمه، أو على توليد البكسلات مباشرة. لكن إعادة العينة بناءً على التدفق تكون غير كافية لأنها لا تستطيع التعامل مع حالات التغطية غير المكشوفة (disocclusions). أما النماذج التوليدية فتُنتج حاليًا نتائج ضبابية. واعتمدت الطرق الحديثة على توليد بكسل من خلال تطبيق عملية التباعد (convolution) على قطع مدخلة باستخدام نواة مُتنبأ بها. لكن متطلبات الذاكرة في هذه الطرق تزداد مع حجم النواة. هنا، نقدّم وحدة التباعد المكاني (Spatially-Displaced Convolution - SDC) لتنبؤ إطار الفيديو. نتعلم متجه حركة ونواة لكل بكسل، ونُولّد بكسلًا من خلال تطبيق النواة في موقع مُزاح في الصورة المصدرية، حسب المتجه الحركي المُتنبأ به. يرث نهجنا المزايا من كلا النهجين القائمين على المتجهات والنهج القائمة على النوى، مع تحسين العيوب الخاصة بكل منهما. تم تدريب نموذجنا على 428 ألف إطار فيديو بجودة 1080p من ألعاب فيديو غير مُصنّفة. ويحقق نهجنا نتائج رائدة في مجاله، حيث بلغت درجة SSIM 0.904 على مقاطع يوتيوب-8M عالية الدقة، و0.918 على مقاطع Caltech Pedestrian. ويُظهر النموذج كفاءة عالية في التعامل مع الحركات الكبيرة، ويُولّد إطاراتًا واضحة مع الحفاظ على اتساق الحركة.

SDC-Net: تنبؤ بالفيديو باستخدام التحويم المكاني المُتَنَقِّص | أحدث الأوراق البحثية | HyperAI