HyperAIHyperAI
منذ 7 أيام

مُحسّن Transformer للشبكات العصبية التوليدية ذات الدقة العالية

Long Zhao, Zizhao Zhang, Ting Chen, Dimitris N. Metaxas, Han Zhang
مُحسّن Transformer للشبكات العصبية التوليدية ذات الدقة العالية
الملخص

النماذج القائمة على الانتباه، مثل مُحَوِّل (Transformer)، قادرة على نمذجة الاعتماد على مدى طويل بشكل فعّال، لكنها تعاني من التعقيد التربيعي لعملية الانتباه الذاتي، مما يجعل من الصعب تبنيها في توليد الصور عالية الدقة باستخدام الشبكات التوليدية التنافسية (GANs). في هذه الورقة، نقدّم مكوّنين رئيسيين لنموذج المُحَوِّل لمعالجة هذه التحديات. أولاً، في المراحل منخفضة الدقة من عملية التوليد، يتم استبدال الانتباه الذاتي العالمي القياسي بـ "الانتباه الذاتي المُحَدَّد بمحاور متعددة" المُقترح، الذي يتيح خلطًا فعّالًا بين الانتباه المحلي والانتباه العالمي. ثانيًا، في المراحل عالية الدقة، نستبعد الانتباه الذاتي تمامًا، ونحتفظ فقط بطبقة التوصيل المتعددة الطبقات (multi-layer perceptrons) التي تتذكّر الوظيفة العصبية الضمنية. ولتحسين الأداء بشكل إضافي، نقدّم مكوّنًا إضافيًا للتعديل الذاتي يعتمد على الانتباه المتقاطع. الناتج هو نموذج يُسمّى HiT، الذي يتمتع بتعقيد حسابي تقريبًا خطي بالنسبة لحجم الصورة، وبالتالي يمكنه التوسع مباشرة في توليد صور عالية الدقة. نُظهر في التجارب أن النموذج المقترح HiT يحقق أداءً متميزًا من حيث مؤشر FID، بقيم 30.83 و2.95 على بيانات ImageNet غير المشروطة بحجم 128×128 وFFHQ بحجم 256×256 على التوالي، مع معدل أداء معقول. نعتقد أن النموذج HiT المُقترح يُمثّل خطوة مهمة في تطوير مُولّدات GANs التي تخلو تمامًا من العمليات التلافيفية (convolutions). تم إتاحة الكود الخاص بنا بشكل عام عبر الرابط التالي: https://github.com/google-research/hit-gan

مُحسّن Transformer للشبكات العصبية التوليدية ذات الدقة العالية | أحدث الأوراق البحثية | HyperAI