HyperAIHyperAI

Command Palette

Search for a command to run...

التحويل التآلفي الدوري للتركيب الصوتي-الصوري

Senmao Ye Fei Liu Minkui Tan

الملخص

تهدف المزج النصي-الصوري إلى إنتاج صور طبيعية مُشَرَّطة على وصفات نصية. تكمن الصعوبة الرئيسية في هذه المهمة في دمج المعلومات النصية بشكل فعّال في عملية توليد الصور. تُطبّق الطرق الحالية عادةً دمجًا تكييفيًا للمعلومات النصية المناسبة في عملية التوليد باستخدام كتل دمج منفصلة متعددة (مثل التطبيع الشرطي والتطبيع الفردي). ومع ذلك، فإن كتل الدمج المنفصلة لا تتعارض فقط مع بعضها البعض، بل تزيد أيضًا من صعوبة التدريب (انظر الصفحة الأولى من الملاحق). لمعالجة هذه المشكلات، نقترح تحويلًا تكراريًا تآلفيًا (RAT) لشبكات التوليد المعاكسة، والذي يربط جميع كتل الدمج بشبكة عصبية تكرارية لنموذج الاعتماد طويل الأمد بينها. بالإضافة إلى ذلك، لتحسين التماسك الدلالي بين النصوص والصور المولدة، ندمج نموذج انتباه مكاني في المُميّز (discriminator). وبفضل الوعي بتوافق مناطق الصورة مع وصفات النص، تُوجّه وصفات النص المُولّد (generator) لتكوين محتوى صور أكثر صلة. تُظهر التجارب الواسعة على مجموعات بيانات CUB وOxford-102 وCOCO تفوق النموذج المقترح مقارنةً بالأساليب الحالية المتطورة \footnote{https://github.com/senmaoy/Recurrent-Affine-Transformation-for-Text-to-image-Synthesis.git}


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp