VRT: محول استعادة الفيديو

إعادة تكوين الفيديو (مثل، زيادة دقة الفيديو) تهدف إلى استعادة الإطارات ذات الجودة العالية من الإطارات ذات الجودة المنخفضة. على عكس إعادة تكوين الصورة الواحدة، فإن إعادة تكوين الفيديو تتطلب عمومًا استخدام المعلومات الزمنية من إطارات فيديو متعددة متجاورة ولكن غالبًا ما تكون غير متناسقة. الطرق العميقة الحالية تعامل هذه المشكلة بشكل عام باستخدام استراتيجية النافذة المنزلقة أو هندسة متكررة، والتي إما تكون مقيدة بإعادة التكوين إطارًا بإطار أو تفتقر إلى قدرة النمذجة على المدى الطويل. في هذا البحث، نقترح نموذج تحويل لإعادة تكوين الفيديو (VRT) يتميز بقدرات التنبؤ بالإطارات بالتوازي ونمذجة الاعتماد الزمني على المدى الطويل. وبشكل أكثر تحديدًا، يتكون VRT من عدة مستويات، كل منها يتألف من نوعين من الوحدات: انتباه ذاتي متبادل زمني (TMSA) والتشويه المتوازي. يقوم TMSA بقسمة الفيديو إلى مقاطع صغيرة، حيث يتم تطبيق الانتباه المتبادل لتقدير الحركة المشتركة، وتوحيد الخصائص، ودمج الخصائص، بينما يستخدم الانتباه الذاتي لاستخراج الخصائص. للسماح بالتفاعلات بين المقاطع، يتم تحويل سلسلة الفيديو لكل طبقة أخرى. بالإضافة إلى ذلك، يتم استخدام التشويه المتوازي لدمج المعلومات بشكل أكبر من الإطارات المجاورة عن طريق تشويه الخصائص بالتوازي. أظهرت نتائج التجارب على خمس مهام، بما في ذلك زيادة دقة الفيديو وإزالة الضبابية وإزالة الضوضاء وتداخل إطارات الفيديو وزيادة دقة الفيديو الزمانية-المكانية، أن VRT يتفوق على أفضل الطرق الحالية بمargins كبيرة (مargins تصل إلى 2.16 ديسيبل) على أربعة عشر مجموعة بيانات مرجعية.