HyperAIHyperAI
منذ 2 أشهر

BoxDiff: التركيب النصي إلى الصورة باستخدام التوسع المقيّد بالصناديق دون تدريب

Xie, Jinheng ; Li, Yuexiang ; Huang, Yawen ; Liu, Haozhe ; Zhang, Wentian ; Zheng, Yefeng ; Shou, Mike Zheng
BoxDiff: التركيب النصي إلى الصورة باستخدام التوسع المقيّد بالصناديق دون تدريب
الملخص

النماذج الحديثة لتحويل النص إلى الصورة قد أظهرت قدرة مدهشة على إنشاء صور عالية الجودة. ومع ذلك، ركز الباحثون بشكل أساسي على طريقة توليد الصور باستخدام دوافع نصية فقط. بينما استكشف بعض الأعمال استخدام وسائط أخرى كشروط، فإن بيانات الزوجية المعتبرة، مثل أزواج الصندوق/القناع، والوقت اللازم للضبط الدقيق، مطلوبة لتغذية النماذج. نظرًا لأن الحصول على هذه البيانات الزوجية يستغرق وقتًا طويلاً ويحتاج إلى جهد كبير ويقتصر على مجموعة مغلقة، فقد يصبح هذا العائق الرئيسي لتطبيقات العالم المفتوح. تركز هذه الورقة البحثية على أبسط شكل من الشروط التي يوفرها المستخدم، مثل الصناديق أو الخطوط العشوائية. لحل المشكلة المشار إليها سابقًا، نقترح طريقة خالية من التدريب للتحكم في الأشياء والسياقات في الصور المولدة وفقًا للشروط المكانية المعطاة. تحديدًا، تم تصميم ثلاثة قيود مكانية وهي: Inner-Box (قيود داخل الصندوق)، Outer-Box (قيود خارج الصندوق)، و Corner Constraints (قيود الزوايا) ودمجها بسلاسة في خطوة إزالة الضوضاء لنماذج التوسع، دون الحاجة إلى تدريب إضافي أو بيانات تخطيط مُشَرَّحة ضخمة. تُظهر النتائج التجريبية الواسعة أن القيود المقترحة يمكنها التحكم فيما يجب تقديمه وأين يجب تقديمه في الصور مع الحفاظ على قدرة نماذج التوسع على إنتاج صور ذات دقة عالية وتغطية مفاهيم متنوعة. الكود متاح بشكل عام عبر الرابط: https://github.com/showlab/BoxDiff.