HyperAIHyperAI

Command Palette

Search for a command to run...

الإنشاء القابل للتحكم للصورة من النص

Bowen Li Xiaojuan Qi Thomas Lukasiewicz Philip H. S. Torr

الملخص

في هذه الورقة، نقترح شبكة توليدية متنافسة للنص إلى صورة (ControlGAN) جديدة قابلة للتحكم، والتي تُمكّن من توليد صور عالية الجودة بشكل فعّال، كما تتيح التحكم في أجزاء معينة من عملية توليد الصور وفقًا لوصف لغوي طبيعي. لتحقيق ذلك، نقدّم مولدًا يعتمد على انتباه على مستوى الكلمات من حيث المساحة والقنوات، والذي يمكنه فصل السمات البصرية المختلفة، ويسمح للنموذج بالتركيز على توليد وتعديل مناطق فرعية تتوافق مع الكلمات الأكثر صلة. بالإضافة إلى ذلك، نقترح مُميّزًا على مستوى الكلمات لتقديم ملاحظات إشرافية دقيقة من خلال ربط الكلمات بمناطق الصورة، مما يُسهّل تدريب مولد فعّال قادر على التلاعب بسمات بصرية محددة دون التأثير على توليد المحتوى الآخر. علاوةً على ذلك، تم اعتماد خسارة إدراكية لتقليل العشوائية المرتبطة بتوليد الصور، وتشجيع المولد على التلاعب بالسمات المطلوبة في النص المعدّل. أظهرت التجارب الواسعة على مجموعات بيانات معيارية أن طريقة我们的 تفوق الطرق الحالية الأفضل، وتمكّن من التلاعب الفعّال بالصور المولدة باستخدام وصفات لغوية طبيعية. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/mrlibw/ControlGAN.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp