StyTr2: نقل الأسلوب الصوري باستخدام المحولات

يهدف نقل نمط الصورة إلى إنتاج صورة تتميز بسمات فنية موجهة بواسطة مرجع نمطي مع الحفاظ على المحتوى الأصلي. وبسبب الطبيعة المحلية في الشبكات العصبية التلافيفية (CNN)، يصعب استخلاص وحفظ المعلومات الشاملة للصور المدخلة. ونتيجة لذلك، تواجه الطرق التقليدية لنقل النمط العصبي تمثيلًا متحيزًا للمحتوى. ولحل هذه المشكلة الحرجة، نأخذ في الاعتبار الاعتماديات طويلة المدى للصور المدخلة في نقل النمط من خلال اقتراح نهج مبني على المُحَوِّل (Transformer) يُسمى StyTr^2. على عكس المحولات البصرية المستخدمة في مهام الرؤية الأخرى، يحتوي StyTr^2 على مُشفرَيْن مختلفَين مبنيَّين على المُحَوِّل لإنشاء تسلسلات مخصصة للنطاقين: المحتوى والنمط، على التوالي. وبعد هذه المشفرات، يتم استخدام مُفكِّك متعدد الطبقات مبني على المُحَوِّل لتلوين تسلسل المحتوى وفقًا لتسلسل النمط. كما نحلل العيوب الموجودة في طرق الترميز المكاني الحالية، ونقترح طريقة جديدة تُسمى الترميز المكاني الواعي بالمحتوى (CAPE)، والتي تكون غير حساسة للقياس (scale-invariant) وتناسب بشكل أفضل مهام نقل نمط الصورة. وتوحي النتائج الكمية والكيفية بفعالية الاقتراح StyTr^2 مقارنة بالطرق الحديثة القائمة على CNN والطرق القائمة على التدفق. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/diyiiyiii/StyTR-2.