شبكة التعديل الزمني للتحكّم في زيادة دقة الفيديو المكاني والزمني

تهدف تقنية الفيديو فائقة الدقة الزمانية-المكانية (STVSR) إلى زيادة الدقة المكانية والزمانية للفيديوهات ذات الدقة المنخفضة ومعدل الإطارات المنخفض. وفي الآونة الأخيرة، حققت الطرق المعتمدة على التحويل المتغير (deformable convolution) أداءً واعداً في STVSR، ولكنها كانت قادرة فقط على استنتاج الإطار الوسيط المحدد مسبقًا خلال مرحلة التدريب. بالإضافة إلى ذلك، كانت هذه الطرق تقلل من أهمية مؤشرات الحركة قصيرة المدى بين الإطارات المجاورة. في هذا البحث، نقترح شبكة التعديل الزمني (TMNet) لتقدير الإطارات الوسيطة العشوائية مع إعادة بناء عالية الدقة بدقة. وبشكل خاص، نقترح كتلة التعديل الزمني (TMB) لتعديل نوى التحويل المتغير لتحقيق تقدير خصائص قابل للتحكم. وللاستفادة بشكل أفضل من المعلومات الزمنية، نقترح وحدة مقارنة الخصائص المحلية-الزمنية (LFC)، بالإضافة إلى LSTM المتغير ثنائي الاتجاه (Bi-directional Deformable ConvLSTM)، لاستخراج مؤشرات الحركة قصيرة المدى وطويلة المدى في الفيديوهات. أظهرت التجارب على ثلاثة مجموعات بيانات مرجعية أن شبكتنا TMNet تتفوق على الطرق السابقة في STVSR. يمكن الوصول إلى الكود من الرابط: https://github.com/CS-GangXu/TMNet.