HyperAIHyperAI
منذ 17 أيام

الإنشاء القابل للتحكم للصورة من النص

Bowen Li, Xiaojuan Qi, Thomas Lukasiewicz, Philip H. S. Torr
الإنشاء القابل للتحكم للصورة من النص
الملخص

في هذه الورقة، نقترح شبكة توليدية متنافسة للنص إلى صورة (ControlGAN) جديدة قابلة للتحكم، والتي تُمكّن من توليد صور عالية الجودة بشكل فعّال، كما تتيح التحكم في أجزاء معينة من عملية توليد الصور وفقًا لوصف لغوي طبيعي. لتحقيق ذلك، نقدّم مولدًا يعتمد على انتباه على مستوى الكلمات من حيث المساحة والقنوات، والذي يمكنه فصل السمات البصرية المختلفة، ويسمح للنموذج بالتركيز على توليد وتعديل مناطق فرعية تتوافق مع الكلمات الأكثر صلة. بالإضافة إلى ذلك، نقترح مُميّزًا على مستوى الكلمات لتقديم ملاحظات إشرافية دقيقة من خلال ربط الكلمات بمناطق الصورة، مما يُسهّل تدريب مولد فعّال قادر على التلاعب بسمات بصرية محددة دون التأثير على توليد المحتوى الآخر. علاوةً على ذلك، تم اعتماد خسارة إدراكية لتقليل العشوائية المرتبطة بتوليد الصور، وتشجيع المولد على التلاعب بالسمات المطلوبة في النص المعدّل. أظهرت التجارب الواسعة على مجموعات بيانات معيارية أن طريقة我们的 تفوق الطرق الحالية الأفضل، وتمكّن من التلاعب الفعّال بالصور المولدة باستخدام وصفات لغوية طبيعية. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/mrlibw/ControlGAN.