منذ 6 أشهر

الملخص

في هذه الورقة، نقترح شبكة توليدية متنافسة للنص إلى صورة (ControlGAN) جديدة قابلة للتحكم، والتي تُمكّن من توليد صور عالية الجودة بشكل فعّال، كما تتيح التحكم في أجزاء معينة من عملية توليد الصور وفقًا لوصف لغوي طبيعي. لتحقيق ذلك، نقدّم مولدًا يعتمد على انتباه على مستوى الكلمات من حيث المساحة والقنوات، والذي يمكنه فصل السمات البصرية المختلفة، ويسمح للنموذج بالتركيز على توليد وتعديل مناطق فرعية تتوافق مع الكلمات الأكثر صلة. بالإضافة إلى ذلك، نقترح مُميّزًا على مستوى الكلمات لتقديم ملاحظات إشرافية دقيقة من خلال ربط الكلمات بمناطق الصورة، مما يُسهّل تدريب مولد فعّال قادر على التلاعب بسمات بصرية محددة دون التأثير على توليد المحتوى الآخر. علاوةً على ذلك، تم اعتماد خسارة إدراكية لتقليل العشوائية المرتبطة بتوليد الصور، وتشجيع المولد على التلاعب بالسمات المطلوبة في النص المعدّل. أظهرت التجارب الواسعة على مجموعات بيانات معيارية أن طريقة我们的 تفوق الطرق الحالية الأفضل، وتمكّن من التلاعب الفعّال بالصور المولدة باستخدام وصفات لغوية طبيعية. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/mrlibw/ControlGAN.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار