الملخص

التصور القصصي (SV) هو مهمة صعبة في توليد الصور من النص بسبب صعوبة ليس فقط في تصوير التفاصيل البصرية من الوصف النصي، بل أيضًا في ترميز السياق طويل المدى عبر جمل متعددة. بينما ركزت الجهود السابقة بشكل أساسي على إنشاء صورة ذات صلة معانيًا لكل جملة، فإن ترميز سياق موزع عبر الفقرة المعطاة لإنتاج صور مقنعة سياقيًا (مثل وجود شخصية صحيحة أو خلفية مشهد مناسبة) لا يزال تحديًا. بهدف تحقيق ذلك، نقترح هندسة ذاكرة جديدة ل إطار التحويل الثنائي الاتجاه مع زيادة نصية عبر الإنترنت تولد وصفات زائفة متعددة كإشراف مكمل أثناء التدريب للحصول على تعميم أفضل للتغيرات اللغوية عند الاستدلال. في التجارب الشاملة التي أجريت على معياري SV الشهيرين، وهما Pororo-SV وFlintstones-SV، أظهرت الطريقة المقترحة تفوقًا كبيرًا على أحدث التقنيات في مجموعة متنوعة من المقاييس بما في ذلك FID وF1 للشخصيات ودقة الإطار وBLEU-2/3 وR-الدقة بتعقيد حسابي مماثل أو أقل.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار