تصور القصة من خلال تحسين النص عبر الإنترنت باستخدام ذاكرة السياق

التصور القصصي (SV) هو مهمة صعبة في توليد الصور من النص بسبب صعوبة ليس فقط في تصوير التفاصيل البصرية من الوصف النصي، بل أيضًا في ترميز السياق طويل المدى عبر جمل متعددة. بينما ركزت الجهود السابقة بشكل أساسي على إنشاء صورة ذات صلة معانيًا لكل جملة، فإن ترميز سياق موزع عبر الفقرة المعطاة لإنتاج صور مقنعة سياقيًا (مثل وجود شخصية صحيحة أو خلفية مشهد مناسبة) لا يزال تحديًا. بهدف تحقيق ذلك، نقترح هندسة ذاكرة جديدة ل إطار التحويل الثنائي الاتجاه مع زيادة نصية عبر الإنترنت تولد وصفات زائفة متعددة كإشراف مكمل أثناء التدريب للحصول على تعميم أفضل للتغيرات اللغوية عند الاستدلال. في التجارب الشاملة التي أجريت على معياري SV الشهيرين، وهما Pororo-SV وFlintstones-SV، أظهرت الطريقة المقترحة تفوقًا كبيرًا على أحدث التقنيات في مجموعة متنوعة من المقاييس بما في ذلك FID وF1 للشخصيات ودقة الإطار وBLEU-2/3 وR-الدقة بتعقيد حسابي مماثل أو أقل.