VideoGigaGAN: نحو تكبير دقيق للفيديو ذات التفاصيل الغنية

أظهرت نماذج تحسين دقة الفيديو (VSR) تحسّنًا ملحوظًا في الاتساق الزمني للفيديوهات المُضخّمة. ومع ذلك، تميل هذه النماذج إلى إنتاج نتائج أكثر ضبابية مقارنة بنماذج تحسين دقة الصور، نظرًا لقيود قدرتها الإنشائية. هذا يطرح سؤالًا جوهريًا: هل يمكننا تمديد نجاح نموذج تحسين دقة الصور الإنشائي إلى مهمة VSR مع الحفاظ على الاتساق الزمني؟ نقدّم VideoGigaGAN، نموذجًا جديدًا لإنشاء الفيديو عالي الدقة، قادر على إنتاج مقاطع فيديو تحتوي على تفاصيل عالية التردد والاتساق الزمني. يُبنى VideoGigaGAN على نموذج تحسين دقة صور على نطاق واسع يُدعى GigaGAN. ومع أن تعميق GigaGAN لتحويله إلى نموذج فيديو عبر إضافة وحدات زمنية قد يبدو بسيطًا، إلا أن هذا التمديد يؤدي إلى تهتزّات زمنية حادة. وقمنا بتحديد عدة مشكلات رئيسية، واقترحنا تقنيات تُحسّن بشكل كبير من الاتساق الزمني للفيديوهات المُضخّمة. تُظهر تجاربنا أن VideoGigaGAN، على عكس الطرق السابقة في VSR، يُنتج مقاطع فيديو متماسكة زمنيًا وبتفاصيل بصرية دقيقة جدًا. وقد قمنا بتوثيق فعالية VideoGigaGAN من خلال مقارنته بنماذج VSR الرائدة على مجموعات بيانات عامة، وعرض نتائج فيديو بتكبير يصل إلى 8 أضعاف.