إدخال الأسلوب في التفتيت: نهج خالٍ من التدريب لتكيف النماذج الكبيرة للتفتيت لنقل الأسلوب

رغم الإمكانيات المُبهرة للنماذج التوسعية (diffusion models) في التوليد، فإن الطرق الحالية القائمة على النماذج التوسعية لنقل الأسلوب الفني تتطلب تحسينًا أثناء مرحلة الاستدلال (مثل التخصيص الدقيق أو التحويل النصي للأسلوب)، وهو ما يستغرق وقتًا طويلاً، أو يفشل في الاستفادة الكاملة من القدرات التوليدية للنماذج التوسعية الكبيرة الحجم. ولحل هذه المشكلات، نقدم طريقة جديدة لنقل الأسلوب الفني تعتمد على نموذج توسعية مُدرّب مسبقًا دون أي تحسين. بشكل محدد، نقوم بتعديل ميزات طبقات الانتباه الذاتي (self-attention layers) بطريقة تشبه آلية الانتباه المتقاطع (cross-attention)، حيث نستبدل أثناء عملية التوليد القيم (key) والقيم (value) الخاصة بالمحتوى بقيم الصورة الفنية. تتميز هذه الطريقة بعدة خصائص مرغوبة لنقل الأسلوب، منها: 1) الحفاظ على المحتوى من خلال نقل أنماط مشابهة إلى مناطق متشابهة في الصورة، و2) نقل الأسلوب بناءً على تشابه النسيج المحلي (مثل الحواف) بين الصورة المحتوية والصورة الفنية. علاوةً على ذلك، نقدّم ميزة الحفاظ على الاستفسار (query preservation) وتعديل درجة حرارة الانتباه (attention temperature scaling) لتقليل اضطراب المحتوى الأصلي، كما نستخدم التطبيع التكيّفي للغة الأولية (initial latent Adaptive Instance Normalization - AdaIN) للتعامل مع مشكلة التباين اللوني (عدم نقل الألوان الفنية بشكل صحيح). أظهرت النتائج التجريبية أن الطريقة المقترحة تتفوّق على أفضل الطرق الحالية في كل من قواعد البيانات التقليدية لنقل الأسلوب والأساليب القائمة على النماذج التوسعية.