HyperAIHyperAI
منذ 17 أيام

تحسين التوليد النصي إلى الصورة باستخدام التعلم المتناقض

Hui Ye, Xiulong Yang, Martin Takac, Rajshekhar Sunderraman, Shihao Ji
تحسين التوليد النصي إلى الصورة باستخدام التعلم المتناقض
الملخص

يتمثل الهدف من تركيب الصور من النصوص في إنشاء صورة واقعية بصريًا تتماشى مع وصف نصي معطى. في الممارسة العملية، تختلف العناوين التوضيحية التي يُعلّقها البشر على نفس الصورة بشكل كبير من حيث المحتوى واختيار الكلمات. يؤدي الاختلاف اللغوي بين العناوين التوضيحية للصورة نفسها إلى انحراف الصور المُولَّدة عن الحقيقة الواقعية. ولحل هذه المشكلة، نقترح نهجًا للتعلم التمييزي لتحسين جودة الصور المُولَّدة وتعزيز اتساقها الدلالي. في مرحلة التدريب المسبق، نستخدم نهج التعلم التمييزي لتعلم تمثيلات نصية متسقة للعناوين التوضيحية المرتبطة بنفس الصورة. علاوة على ذلك، في المرحلة التالية من تدريب الشبكات العصبية التوليدية (GAN)، نطبّق طريقة التعلم التمييزي لتعزيز الاتساق بين الصور المُولَّدة الناتجة عن العناوين التوضيحية المرتبطة بنفس الصورة. وقد قمنا بتقييم نهجنا على نموذجين شهيرين لتركيب الصور من النصوص، هما AttnGAN وDM-GAN، على مجموعتي بيانات CUB وCOCO على التوالي. وأظهرت النتائج التجريبية أن نهجنا يمكنه تحسين جودة الصور المُولَّدة بشكل فعّال من حيث ثلاث مقاييس: IS وFID وR-precision. وبشكل خاص، على مجموعة بيانات COCO الصعبة، حقق نهجنا تحسنًا ملحوظًا في FID بنسبة 29.60% مقارنة بـ AttnGAN وبنسبة 21.96% مقارنة بـ DM-GAN.