تعلم التحويلات المكانية-الزمنية المشتركة لإعادة تكوين الفيديو

إكمال الفيديو بجودة عالية من خلال ملء المناطق المفقودة في إطارات الفيديو هو مهمة واعدة ومعقدة. تستخدم الطرق الرائدة نماذج الانتباه لإكمال الإطار عن طريق البحث عن المحتوى المفقود من الإطارات المرجعية، ثم تكمل الفيديوهات بأكملها إطارة بإطارة. ومع ذلك، يمكن لهذه الطرق أن تعاني من نتائج انتباه غير متسقة على الأبعاد المكانية والزمانية، مما يؤدي غالبًا إلى ضبابية وعيوب زمانية في الفيديوهات. في هذا البحث، نقترح تعلم شبكة تحويل مشتركة مكانية-زمانية (STTN) لإكمال الفيديو. بشكل خاص، نقوم بتعبئة المناطق المفقودة في جميع الإطارات الدخولية بشكل متزامن باستخدام انتباه الذات، ونقترح تحسين STTN من خلال خسارة معاكسة مكانية-زمانية. لبيان تفوق النموذج المقترح، قمنا بإجراء تقييمات كمية وكيفية باستخدام أقنعة ثابتة قياسية وأقنعة أجرام متحركة أكثر واقعية. يمكن الوصول إلى مقاطع الفيديو التوضيحية عبر الرابط: https://github.com/researchmm/STTN.