LatteGAN: انتباه اللغة الموجهة بصريًا للتعديل على الصور المعتمدة على النص ومتعددة الدورات

أصبحت مهام تعديل الصور الموجهة بالنص محط اهتمام متزايد في مجتمع الرؤية واللغة. في حين ركزت معظم الدراسات السابقة على تعديل الصور في دورة واحدة، فإن هدفنا في هذه الورقة هو معالجة المهمة الأصعب المتمثلة في تعديل الصور متعددة الدورات (MTIM). وعلى الرغم من أن النماذج السابقة لهذه المهمة نجحت في إنتاج صور بشكل تكراري، بالاعتماد على تسلسل من التعليمات والصورة المُولَّدة مسبقًا، إلا أن هذا النهج يعاني من مشكلة النقص في الإنتاج (under-generation) وانخفاض جودة الكائنات التي تُوصف في التعليمات، مما يؤدي إلى تدهور الأداء العام. لتجاوز هذه المشكلات، نقدم معمارية جديدة تُسمى "شبكة جان موجهة بصريًا باللغة (LatteGAN)". حيث نعالج قيود النهج السابقة من خلال إدخال وحدة موجهة بصريًا باللغة (Latte)، التي تستخرج تمثيلات نصية دقيقة للغاية للعامل المُولِّد، إلى جانب معمارية مُميِّز (Discriminator) من نوع U-Net مُشَرَّطة بالنص، والتي تقوم بالتمييز بين التمثيلات العالمية والمحورية للصور الحقيقية أو المزيفة. أظهرت التجارب الواسعة على مجموعتي بيانات MTIM المختلفتين CoDraw وi-CLEVR أداءً متميزًا على مستوى الحد الأقصى في المجال (state-of-the-art) للنموذج المقترح.