HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين التوليد النصي إلى الصورة باستخدام التعلم المتناقض

Hui Ye Xiulong Yang Martin Takac Rajshekhar Sunderraman Shihao Ji

الملخص

يتمثل الهدف من تركيب الصور من النصوص في إنشاء صورة واقعية بصريًا تتماشى مع وصف نصي معطى. في الممارسة العملية، تختلف العناوين التوضيحية التي يُعلّقها البشر على نفس الصورة بشكل كبير من حيث المحتوى واختيار الكلمات. يؤدي الاختلاف اللغوي بين العناوين التوضيحية للصورة نفسها إلى انحراف الصور المُولَّدة عن الحقيقة الواقعية. ولحل هذه المشكلة، نقترح نهجًا للتعلم التمييزي لتحسين جودة الصور المُولَّدة وتعزيز اتساقها الدلالي. في مرحلة التدريب المسبق، نستخدم نهج التعلم التمييزي لتعلم تمثيلات نصية متسقة للعناوين التوضيحية المرتبطة بنفس الصورة. علاوة على ذلك، في المرحلة التالية من تدريب الشبكات العصبية التوليدية (GAN)، نطبّق طريقة التعلم التمييزي لتعزيز الاتساق بين الصور المُولَّدة الناتجة عن العناوين التوضيحية المرتبطة بنفس الصورة. وقد قمنا بتقييم نهجنا على نموذجين شهيرين لتركيب الصور من النصوص، هما AttnGAN وDM-GAN، على مجموعتي بيانات CUB وCOCO على التوالي. وأظهرت النتائج التجريبية أن نهجنا يمكنه تحسين جودة الصور المُولَّدة بشكل فعّال من حيث ثلاث مقاييس: IS وFID وR-precision. وبشكل خاص، على مجموعة بيانات COCO الصعبة، حقق نهجنا تحسنًا ملحوظًا في FID بنسبة 29.60% مقارنة بـ AttnGAN وبنسبة 21.96% مقارنة بـ DM-GAN.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp