تعلم نموذج التحويل الزمني-المكاني الترددي لتحسين دقة الفيديو المُضغوط

يهدف الاسترجاع الفائق للدقة في الفيديو المضغوط (VSR) إلى استعادة الإطارات عالية الدقة من نسخ منخفضة الدقة مضغوطة. غالبًا ما تعزز الطرق الحديثة لـ VSR الإطار المدخل من خلال استعارة نسيج مناسب من الإطارات المجاورة في الفيديو. وعلى الرغم من التقدم المحرز، لا تزال هناك تحديات كبيرة في استخراج ونقل نسيج عالي الجودة من الفيديوهات المضغوطة، حيث تكون معظم الإطارات غالبًا مُتضررة بشدة. في هذه الدراسة، نقترح طريقة جديدة تُسمى "مُحول الترددات لاسترجاع الفيديو المضغوط" (FTVSR)، والتي تُطبّق الانتباه الذاتي في مجال مدمج يشمل الفضاء والزمن والتردد. أولاً، نقسّم إطار الفيديو إلى لوحات (patches)، ثم نحول كل لوحة إلى خرائط طيفية باستخدام التحويل المتقطع لل餘 (DCT)، حيث يمثل كل قناة نطاق ترددي معين. يمكّن هذا التصميم من تطبيق انتباه ذاتي دقيق على كل نطاق ترددي، مما يسمح بتمييز النسيج البصري الحقيقي عن العيوب (الإشارات المضافة)، ويُستخدم لاحقًا في استرجاع إطار الفيديو. ثانيًا، ندرس مختلف نماذج الانتباه الذاتي، ونكتشف أن نموذج الانتباه المنقسم، الذي يُطبّق الانتباه المدمج بين الفضاء والتردد قبل تطبيق الانتباه الزمني على كل نطاق ترددي، يحقق أفضل جودة في تحسين الفيديو. أظهرت النتائج التجريبية على بحثين شائعين في مجال استرجاع الفيديو عالي الدقة أن FTVSR يتفوق على الطرق الحالية في كل من الفيديوهات غير المضغوطة والمضغوطة، بفارق بصري واضح. يمكن الاطلاع على الكود المصدر عبر الرابط: https://github.com/researchmm/FTVSR.