شبكات التوليد المعاكسة الزمنية مع قص القيم المفردة

في هذا البحث، نقترح نموذجًا توليديًا يُسمى شبكات التضاد التوليدية الزمنية (TGAN)، والذي يمكنه تعلم تمثيل دلالي لمقاطع الفيديو غير المصنفة، ولديه القدرة على إنشاء مقاطع فيديو. على عكس الأساليب القائمة على شبكات التضاد التوليدية (GAN) التي تولد مقاطع الفيديو باستخدام مولد واحد يتكون من طبقات ثلاثية الأبعاد معكوسة، يستخدم نموذجنا نوعين مختلفين من المولدات: مولد زمني ومولد صور. يأخذ المولد الزمني متغيرًا خفيًا واحدًا كمدخل وينتج مجموعة من المتغيرات الخفية، كل منها يتوافق مع إطار صورة في مقطع الفيديو. يقوم المولد الصوري بتحويل مجموعة من هذه المتغيرات الخفية إلى مقطع فيديو. للتعامل مع عدم الاستقرار أثناء تدريب GAN بهذه الشبكات المتقدمة، نعتمد على نموذج تم اقتراحه مؤخرًا وهو Wasserstein GAN، ونقترح طريقة جديدة لتدريبه بشكل مستقر بطريقة شاملة. تظهر النتائج التجريبية فعالية أساليبنا.