HyperAIHyperAI
منذ 3 أشهر

نظام تحسين حي للدقة الفائقة لفيديو 4K مبني على التعلم العميق

Yanpeng Cao, Chengcheng Wang, Changjun Song, Yongming Tang, He Li
نظام تحسين حي للدقة الفائقة لفيديو 4K مبني على التعلم العميق
الملخص

تُظهر تقنية التحسين الفائق للفيديو (VSR) كفاءة عالية في إعادة بناء مقاطع الفيديو منخفضة الجودة، مع تجنب التأثيرات غير المرغوب فيها مثل الضبابية الناتجة عن الخوارزميات القائمة على التداخل. ومع ذلك، فإن التعقيد الحسابي الكبير واستهلاك الذاكرة الكبير يعيق إمكانية استخدامها في البيئات الحافة، ويؤثر سلبًا على الأداء الزمني للتنبؤ في التطبيقات الواقعية، خاصة في مهام VSR ذات الحجم الكبير. تبحث هذه الورقة في إمكانية إنشاء نظام VSR في الوقت الفعلي، وتصميم شبكة VSR فعّالة وعامة، تُسمّى EGVSR. تعتمد EGVSR المقترحة على تعلم معاكس فضائي-زمني لضمان الاتساق الزمني. ولتحقيق قدرة أسرع في معالجة VSR حتى دقة 4K، تم اختيار بنية شبكة خفيفة الوزن وطريقة فعّالة لرفع الدقة، بهدف تقليل الحسابات المطلوبة من قبل شبكة EGVSR مع الحفاظ على جودة بصرية عالية. بالإضافة إلى ذلك، تم تنفيذ تقنيات تسريع الشبكات العصبية مثل دمج عمليات التطبيع بالدُفعة (batch normalization) وخوارزميات تسريع التحويلات التلافيفية (convolutional acceleration) على منصة هاردوير فعلية، بهدف تحسين عملية الاستنتاج للشبكة EGVSR. في النهاية، تحقق EGVSR القدرة على المعالجة في الوقت الفعلي بسرعة 29.61 إطارًا في الثانية عند دقة 4K. مقارنةً بشبكة VSR الأحدث حاليًا، TecoGAN، تم تحقيق خفض بنسبة 85.04% في كثافة الحسابات، وزيادة في الأداء بنسبة 7.92 مرة. من حيث الجودة البصرية، تتفوّق EGVSR المقترحة على معظم القياسات الأخرى (مثل LPIPS، tOF، tLP، إلخ) على مجموعة بيانات الاختبار العامة Vid4، وتتفوّق على الطرق الأخرى المتميزة من حيث الدرجة الإجمالية للأداء. يمكن العثور على كود المصدر لهذا المشروع على الرابط: https://github.com/Thmen/EGVSR.