صورة ترانسفورمر

تم نجاحًا تحويل إنشاء الصور إلى مشكلة توليد أو تحويل متتالية ذاتية الانحدار. وقد أظهرت الدراسات الحديثة أن انتباه الذات (self-attention) هو طريقة فعالة لنمذجة التسلسلات النصية. في هذا البحث، نعمم معمارية نموذج مقترح حديثًا تعتمد على انتباه الذات، وهي المُحَوِّل (Transformer)، إلى صياغة نمذجة متتالية لإنشاء الصور مع احتمال قابل للحساب. من خلال تقييد آلية انتباه الذات على الأحياء المحلية، نزيد بشكل كبير حجم الصور التي يمكن للنموذج معالجتها في الممارسة العملية، رغم الحفاظ على مجالات استقبال أكبر بكثير لكل طبقة من الشبكات العصبية التلافيفية التقليدية. بينما تكون الفكرة بسيطة من الناحية المفهومية، فإن نماذجنا الإنشائية تتفوق بشكل كبير على أفضل ما تم تحقيقه حتى الآن في إنشاء الصور على ImageNet، حيث تحسيننا لأفضل قيمة سجل الاحتمال السالبة المنشورة على ImageNet من 3.83 إلى 3.77. كما قمنا بتقديم نتائج حول زيادة دقة الصور بمعامل تكبير كبير، باستخدام تكوين مُشفِّر-مُفكِّك (encoder-decoder) لمعماريتنا. وفي دراسة تقييم بشرية، وجدنا أن الصور التي تم إنشاؤها بواسطة نموذج زيادة الدقة لدينا تنطلي على المشاهدين البشريين ثلاث مرات أكثر مما كانت عليه أفضل ما تم تحقيقه حتى الآن.