HyperAIHyperAI

Command Palette

Search for a command to run...

ReCo: توليد الصور من النص تحت السيطرة الإقليمية

الملخص

في الآونة الأخيرة، أظهرت نماذج التحويل من النص إلى الصورة (T2I) على نطاق واسع أداءً مثيرًا للإعجاب في توليد صور عالية الدقة، ولكن مع قابلية تحكم محدودة، مثل تحديد المحتوى بدقة في منطقة محددة باستخدام وصف نصي حر. في هذا البحث، نقترح تقنية فعالة لتحقيق مثل هذا التحكم الإقليمي في توليد الصور من النص. نضيف إلى إدخالات نماذج T2I مجموعة إضافية من رموز الموضع التي تمثل الإحداثيات المكانية المُكَوَّنَة. يتم تحديد كل منطقة بأربعة رموز موضع لتمثيل الزاوية العلوية اليسرى والزاوية السفلية اليمنى، تليها وصف طبيعي بلغة طبيعية للمنطقة. ثم، نقوم بضبط نموذج T2I مدرب مسبقًا مع هذه الواجهة الإدخالية الجديدة. يُمكن نموذجنا الذي أطلقنا عليه اسم ReCo (Region-Controlled T2I) التحكم الإقليمي لأي كائنات يتم وصفها بواسطة نصوص إقليمية طبيعية بدلاً من تسميات الأشياء من مجموعة فئات مقيدة. عمليًا، حقق ReCo جودة صورة أفضل من نموذج T2I المعزز بكلمات موقع (FID: 8.82→7.36، SceneFID: 15.54→6.51 على COCO)، بالإضافة إلى وضع الأشياء بشكل أكثر دقة، مما يترجم إلى تحسين بنسبة 20.40% في دقة تصنيف المنطقة على COCO. علاوة على ذلك، أظهرنا أن ReCo يمكنه التحكم بشكل أفضل بعدد الأشياء والعلاقة المكانية وخواص المنطقة مثل اللون/الحجم، باستخدام الوصف الإقليمي الحر. أظهرت التقييم البشري لـ PaintSkill أن ReCo أكثر دقة بنسبة +19.28% و+17.21% في توليد صور ذات عدد صحيح للأشياء والعلاقة المكانية الصحيحة مقارنة بنموذج T2I.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp