GANs N' Roses: تحويل صور إلى صور مستقر، قابل للتحكم، ومتنوع (يعمل أيضًا على الفيديوهات!)

نُظهر كيفية تعلُّم خريطة تأخذ رمز محتوى مشتَقًّا من صورة وجه، ورمز أسلوب عشوائي، وتحولهما إلى صورة أنمي. نستمد خسارة مُعاكسة من تعريفات بسيطة وفعّالة لـ"النمط" و"المحتوى". تضمن هذه الخسارة أن تكون الخريطة متنوعة — حيث يمكن إنتاج طيف واسع جدًا من أنماط الأنمي من رمز محتوى واحد فقط. وبافتراضات معقولة، تكون الخريطة ليست متنوعة فحسب، بل تمثل أيضًا بشكل صحيح احتمالية صورة أنمي، معطاة صورة وجه إدخال. على عكس الإجراءات الحالية للإنتاج متعدد النماذج، التي لا تستطيع التقاط الأنماط المعقدة التي تظهر في الأنمي. تدعم تجارب كمية واسعة الفكرة بأن الخريطة صحيحة. وتُظهر النتائج النوعية الموسعة أن الطريقة قادرة على إنتاج طيف أعرض بكثير من الأنماط مقارنة بالطرق المُتفوّقة (SOTA). وأخيرًا، نُظهر أن صيغتنا للـ"محتوى" و"النمط" تسمح لنا بإجراء تحويل فيديو إلى فيديو دون الحاجة أبدًا إلى تدريب على فيديوهات.