HyperAI
منذ 4 أيام

FreeMorph: تشكيل صور عام بدون ضبط مع نموذج الانتشار

Yukang Cao, Chenyang Si, Jinghao Wang, Ziwei Liu
FreeMorph: تشكيل صور عام بدون ضبط مع نموذج الانتشار
الملخص

نقدم طريقة FreeMorph، وهي أول طريقة لتحويل الصور لا تتطلب ضبطًا وتتناسب مع المدخلات ذات المعاني أو التخطيطات المختلفة. على عكس الطرق الحالية التي تعتمد على ضبط نماذج التوسع المدربة مسبقًا وتعاني من قيود زمنية واختلافات في المعنى/التخطيط، تقدم FreeMorph تحويل صور عالي الدقة دون الحاجة إلى تدريب لكل حالة. رغم كفاءتها وإمكاناتها، فإن الطرق غير المضبوطة تواجه تحديات في الحفاظ على جودة عالية للنتائج بسبب الطبيعة اللاخطية لعملية التنقية متعددة الخطوات والتحيزات المستمدة من نموذج التوسع المدرب مسبقًا. في هذا البحث، نقدم FreeMorph لمعالجة هذه التحديات عبر دمج ابتكارين أساسيين: 1) نقترح أولاً تصميم تداخل كروي يعي他知道身份损失并确保在生成序列中实现定向过渡,通过修改自注意力模块来结合输入图像的显式指导。2) نقدم أيضاً اتجاه متغير حسب الخطوة يدمج وحدات الانتباه الذاتي المستخرجة من كل صورة مدخلة لتحقيق انتقالات مراقبة ومتسقة تحترم كلاً من المدخلات. تقييماتنا الواسعة تثبت أن FreeMorph تتفوق على الطرق الحالية، حيث تكون أسرع بمقدار 10 إلى 50 مرة وتؤسس لمقياس جديد في مجال تحويل الصور.为了确保翻译的准确性,我将重新调整部分句子结构:نقدم طريقة FreeMorph، وهي أول طريقة لتحويل الصور لا تتطلب ضبطًا وتتناسب مع المدخلات ذات المعاني أو التخطيطات المختلفة. على عكس الطرق الحالية التي تعتمد على ضبط نماذج التوسع المدربة مسبقًا وتعاني من قيود زمنية واختلافات في المعنى/التخطيط، توفر FreeMorph تحويل صور عالي الدقة دون الحاجة إلى تدريب لكل حالة. رغم كفاءتها وإمكاناتها، فإن الطرق غير المضبوطة تواجه تحديات في الحفاظ على جودة عالية للنتائج بسبب الطبيعة اللاخطية لعملية التنقية متعددة الخطوات (multi-step denoising process) والتحيزات المستمدة من نموذج التوسع المدرب مسبقًا (pre-trained diffusion model). في هذا البحث، نقدم FreeMorph لمعالجة هذه التحديات عبر دمج ابتكارين أساسيين: 1) نقترح أولاً تصميم تداخل كروي يعيه بوجود خسارة الهوية (identity loss) ويضمن تحقيق انتقالات موجهة خلال سلسلة الصور المنتجة عن طريق تعديل وحدات الانتباه الذاتي (self-attention modules)، مما يتيح دمج الإرشاد الصريح من الصور المدخلة. 2) بالإضافة إلى ذلك، نقدم اتجاه متغير حسب الخطوة يدمج وحدات الانتباه الذاتي المستخرجة من كل صورة مدخلة لتحقيق انتقالات محكومة ومتسقة تحترم كلاً من المدخلتين. أظهرت تقييماتنا الشاملة أن FreeMorph تتفوق على الطرق الموجودة حاليًا، حيث تكون أسرع بمقدار 10 إلى 50 مرة وتؤسس لمقياس جديد في مجال تحويل الصور (image morphing).