HyperAIHyperAI

Command Palette

Search for a command to run...

BoxDiff: التركيب النصي إلى الصورة باستخدام التوسع المقيّد بالصناديق دون تدريب

Jinheng Xie Yuexiang Li Yawen Huang Haozhe Liu Wentian Zhang Yefeng Zheng Mike Zheng Shou

الملخص

النماذج الحديثة لتحويل النص إلى الصورة قد أظهرت قدرة مدهشة على إنشاء صور عالية الجودة. ومع ذلك، ركز الباحثون بشكل أساسي على طريقة توليد الصور باستخدام دوافع نصية فقط. بينما استكشف بعض الأعمال استخدام وسائط أخرى كشروط، فإن بيانات الزوجية المعتبرة، مثل أزواج الصندوق/القناع، والوقت اللازم للضبط الدقيق، مطلوبة لتغذية النماذج. نظرًا لأن الحصول على هذه البيانات الزوجية يستغرق وقتًا طويلاً ويحتاج إلى جهد كبير ويقتصر على مجموعة مغلقة، فقد يصبح هذا العائق الرئيسي لتطبيقات العالم المفتوح. تركز هذه الورقة البحثية على أبسط شكل من الشروط التي يوفرها المستخدم، مثل الصناديق أو الخطوط العشوائية. لحل المشكلة المشار إليها سابقًا، نقترح طريقة خالية من التدريب للتحكم في الأشياء والسياقات في الصور المولدة وفقًا للشروط المكانية المعطاة. تحديدًا، تم تصميم ثلاثة قيود مكانية وهي: Inner-Box (قيود داخل الصندوق)، Outer-Box (قيود خارج الصندوق)، و Corner Constraints (قيود الزوايا) ودمجها بسلاسة في خطوة إزالة الضوضاء لنماذج التوسع، دون الحاجة إلى تدريب إضافي أو بيانات تخطيط مُشَرَّحة ضخمة. تُظهر النتائج التجريبية الواسعة أن القيود المقترحة يمكنها التحكم فيما يجب تقديمه وأين يجب تقديمه في الصور مع الحفاظ على قدرة نماذج التوسع على إنتاج صور ذات دقة عالية وتغطية مفاهيم متنوعة. الكود متاح بشكل عام عبر الرابط: https://github.com/showlab/BoxDiff.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp