تعلم الت Kohherence الزمنية عبر الذاتية الإشراف لتقنيات توليد الفيديو المستندة إلى GAN

يعتبر عملنا استكشافًا للإشراف الذاتي الزمني في مهام توليد الفيديو باستخدام شبكات GAN. رغم أن التدريب المعادي يحقق نماذج توليدية بنجاح في مجموعة متنوعة من المجالات، فإن العلاقات الزمنية في البيانات المُنشَأة تم دراستها بشكل أقل بكثير. تعتبر التغيرات الطبيعية الزمنية ضرورية للغاية للمهام التي تتطلب توليدًا متتابعًا، مثل زيادة دقة الفيديو وترجمة الفيديو غير المترابطة. بالنسبة للأولى، غالبًا ما تفضل الطرق الرائدة خسائر البُعد الأقل تعقيدًا مثل $L^2$ على التدريب المعادي. ومع ذلك، فإن طبيعتها المتوسطة بسهولة تقود إلى نتائج زمنية سلسة ولكنها تفتقر إلى التفاصيل المكانية المرغوبة. أما بالنسبة لترجمة الفيديو غير المترابطة، فتعمل النهج الحالية على تعديل شبكات الجينراتور لتشكيل توافق دوري مكاني وزماني. بالمقابل، نركز على تحسين أهداف التعلم ونقترح خوارزمية ذات إشراف ذاتي زمني. بالنسبة لكلا المهمتين، نوضح أن التعلم المعادي الزمني هو العنصر الأساسي لتحقيق حلول زمنية متماسكة دون التضحية بالتفاصيل المكانية. كما نقترح خسارة جديدة تُعرف بـ "خسارة Ping-Pong" لتحسين الاستمرارية الزمنية طويلة الأمد. فهي تعمل بفعالية على منع الشبكات الدورية من تراكم الأخطاء الزمنياً دون القضاء على الخصائص التفصيلية. بالإضافة إلى ذلك، نقترح مجموعة أولى من المقاييس لتقييم دقة ومظهر جودة التطور الزمني بشكل كمي. وقد أكدت سلسلة من دراسات المستخدمين الترتيبات التي تم حسابها باستخدام هذه المقاييس. يتم توفير الكود والبيانات والنماذج والنتائج في https://github.com/thunil/TecoGAN. تحتوي صفحة المشروع https://ge.in.tum.de/publications/2019-tecogan-chu/ على مواد إضافية.ملاحظات:- GAN: اختصار لـ Generative Adversarial Networks (الشبكات المعادية التوليدية).- $L^2$: يشير إلى خسارة البُعد الثاني (Second Norm Loss).- Ping-Pong loss: نوع جديد من الخسائر مقترح في هذا العمل.- TecoGAN: اسم المشروع (Temporal Consistency in Generative Adversarial Networks).