HyperAIHyperAI
منذ 2 أشهر

FastComposer: توليد صور متعددة المواضيع بدون ضبط مع التركيز الموضعي

Xiao, Guangxuan ; Yin, Tianwei ; Freeman, William T. ; Durand, Frédo ; Han, Song
FastComposer: توليد صور متعددة المواضيع بدون ضبط مع التركيز الموضعي
الملخص

تتفوق نماذج الانتشار في توليد الصور من النص، خاصةً في توليد الصور الشخصية القائمة على الموضوع. ومع ذلك، فإن الأساليب الحالية غير فعالة بسبب التحسين الدقيق المحدد للموضوع، والذي يتطلب حسابات مكثفة ويعرقل الانتشار الفعال. بالإضافة إلى ذلك، تواجه الأساليب الحالية صعوبات في توليد الصور متعددة المواضيع حيث أنها غالباً ما تدمج الخصائص بين المواضيع. نقدم FastComposer (فاستكومبوسر) الذي يمكّن من توليد الصور متعددة المواضيع الشخصية بكفاءة دون الحاجة إلى التحسين الدقيق. يستخدم FastComposer متجهات الموضوع المستخرجة بواسطة كودر الصور لتقوية التحكم النصي العام في نماذج الانتشار، مما يسمح بتوليد صور شخصية بناءً على صور الموضوع والتعليمات النصية باستخدام عمليات الإرسال فقط. لحل مشكلة دمج الهوية في توليد الصور متعددة المواضيع، يقترح FastComposer إشراف تحديد الموقع عبر الانتباه خلال التدريب، مما يفرض تركيز انتباه المواضيع المرجعية على المناطق الصحيحة في الصور المستهدفة. يؤدي التعامل مع متجهات الموضوع بطريقة بسيطة إلى الانسياق الزائد نحو الموضوع. يقترح FastComposer تعديلًا متأخرًا لمتجهات الموضوع خلال خطوة إزالة الضوضاء للحفاظ على الهوية والقابلية للتحرير في توليد الصور القائم على الموضوع. يقوم FastComposer بتوليد صور لأفراد عديدين غير معروفين بمختلف الأنماط والأفعال والسياقات. ويحقق سرعة أكبر بمقدار 300-2500 مرة مقارنة بالأساليب القائمة على التحسين الدقيق ولا يحتاج إلى أي تخزين إضافي للمواضيع الجديدة. يعد FastComposer خطوة مهمة نحو توليد صور عالية الجودة وشخصية وكفوءة لمواضيع متعددة. يمكن الحصول على الكود والنموذج ومجموعة البيانات من الرابط التالي: https://github.com/mit-han-lab/fastcomposer.

FastComposer: توليد صور متعددة المواضيع بدون ضبط مع التركيز الموضعي | أحدث الأوراق البحثية | HyperAI