التحويل التآلفي الدوري للتركيب الصوتي-الصوري

تهدف المزج النصي-الصوري إلى إنتاج صور طبيعية مُشَرَّطة على وصفات نصية. تكمن الصعوبة الرئيسية في هذه المهمة في دمج المعلومات النصية بشكل فعّال في عملية توليد الصور. تُطبّق الطرق الحالية عادةً دمجًا تكييفيًا للمعلومات النصية المناسبة في عملية التوليد باستخدام كتل دمج منفصلة متعددة (مثل التطبيع الشرطي والتطبيع الفردي). ومع ذلك، فإن كتل الدمج المنفصلة لا تتعارض فقط مع بعضها البعض، بل تزيد أيضًا من صعوبة التدريب (انظر الصفحة الأولى من الملاحق). لمعالجة هذه المشكلات، نقترح تحويلًا تكراريًا تآلفيًا (RAT) لشبكات التوليد المعاكسة، والذي يربط جميع كتل الدمج بشبكة عصبية تكرارية لنموذج الاعتماد طويل الأمد بينها. بالإضافة إلى ذلك، لتحسين التماسك الدلالي بين النصوص والصور المولدة، ندمج نموذج انتباه مكاني في المُميّز (discriminator). وبفضل الوعي بتوافق مناطق الصورة مع وصفات النص، تُوجّه وصفات النص المُولّد (generator) لتكوين محتوى صور أكثر صلة. تُظهر التجارب الواسعة على مجموعات بيانات CUB وOxford-102 وCOCO تفوق النموذج المقترح مقارنةً بالأساليب الحالية المتطورة \footnote{https://github.com/senmaoy/Recurrent-Affine-Transformation-for-Text-to-image-Synthesis.git}