HyperAIHyperAI

Command Palette

Search for a command to run...

LatteGAN: انتباه اللغة الموجهة بصريًا للتعديل على الصور المعتمدة على النص ومتعددة الدورات

Shoya Matsumori Yuki Abe Kosuke Shingyouchi Komei Sugiura Michita Imai

الملخص

أصبحت مهام تعديل الصور الموجهة بالنص محط اهتمام متزايد في مجتمع الرؤية واللغة. في حين ركزت معظم الدراسات السابقة على تعديل الصور في دورة واحدة، فإن هدفنا في هذه الورقة هو معالجة المهمة الأصعب المتمثلة في تعديل الصور متعددة الدورات (MTIM). وعلى الرغم من أن النماذج السابقة لهذه المهمة نجحت في إنتاج صور بشكل تكراري، بالاعتماد على تسلسل من التعليمات والصورة المُولَّدة مسبقًا، إلا أن هذا النهج يعاني من مشكلة النقص في الإنتاج (under-generation) وانخفاض جودة الكائنات التي تُوصف في التعليمات، مما يؤدي إلى تدهور الأداء العام. لتجاوز هذه المشكلات، نقدم معمارية جديدة تُسمى "شبكة جان موجهة بصريًا باللغة (LatteGAN)". حيث نعالج قيود النهج السابقة من خلال إدخال وحدة موجهة بصريًا باللغة (Latte)، التي تستخرج تمثيلات نصية دقيقة للغاية للعامل المُولِّد، إلى جانب معمارية مُميِّز (Discriminator) من نوع U-Net مُشَرَّطة بالنص، والتي تقوم بالتمييز بين التمثيلات العالمية والمحورية للصور الحقيقية أو المزيفة. أظهرت التجارب الواسعة على مجموعتي بيانات MTIM المختلفتين CoDraw وi-CLEVR أداءً متميزًا على مستوى الحد الأقصى في المجال (state-of-the-art) للنموذج المقترح.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
LatteGAN: انتباه اللغة الموجهة بصريًا للتعديل على الصور المعتمدة على النص ومتعددة الدورات | مستندات | HyperAI