IP-Adapter: مكيف دليل صورة متوافق مع النص لنموذج التوسع من النص إلى الصورة

شهدت السنوات الأخيرة قوة كبيرة للنماذج الموزعة الكبيرة لتحويل النص إلى الصورة في إنشاء صور عالية الدقة بشكل مثير للإعجاب. ومع ذلك، فإن توليد الصور المرغوبة باستخدام النصوص فقط أمر معقد للغاية، حيث يشتمل غالبًا على هندسة دلالية معقدة (prompt engineering). بديل للنصوص هو استخدام الصور كحافز، كما يقال: "الصورة تعادل ألف كلمة". رغم أن طرق التعديل المباشر من النماذج المدربة مسبقًا فعالة، إلا أنها تتطلب موارد حاسوبية ضخمة ولا تكون متوافقة مع نماذج أساسية أخرى أو حواجز نصية أو ضوابط هيكلية.في هذا البحث، نقدم IP-Adapter، وهو محول فعال وخفيف الوزن لتحقيق قدرة الحوافز الصورية للنماذج الموزعة المدربة مسبقًا لتحويل النص إلى الصورة. التصميم الرئيسي لـ IP-Adapter هو آلية الانتباه المتقاطع المنفصلة (decoupled cross-attention mechanism)، التي تفصل طبقات الانتباه المتقاطع بين خصائص النص وخصائص الصورة. بالرغم من بساطة أسلوبنا، يمكن لـ IP-Adapter الذي يحتوي على 22 مليون معلمة فقط تحقيق أداء مماثل أو حتى أفضل من نموذج الحوافز الصورية الذي تم تعديله بالكامل.نظرًا لأننا نجمد النموذج الموزع المدرب مسبقًا، يمكن تعميم المحول المقترح (IP-Adapter) ليس فقط على نماذج مخصصة تم تعديلها من نفس النموذج الأساسي، بل أيضًا على التوليد القابل للتحكم باستخدام الأدوات القابلة للتحكم الموجودة. بفضل استراتيجية الانتباه المتقاطع المنفصلة، يمكن للحوافز الصورية العمل بكفاءة مع الحواجز النصية لتحقيق توليد صوري متعدد الوسائط.صفحة المشروع متاحة على الرابط التالي: \url{https://ip-adapter.github.io}.