StoryDALL-E: تكييف المتحولات المدربة مسبقًا من النص إلى الصورة لاستمرار القصة

التطورات الحديثة في تقنية تحويل النص إلى صورة أدت إلى تطوير متحولات كبيرة تم تدريبها مسبقًا ولديها قدرات ممتازة على إنشاء تصورات بصرية من نص معين. ومع ذلك، فإن هذه النماذج غير مناسبة للمهام المتخصصة مثل تصور القصص، والتي تتطلب من الوكيل إنتاج سلسلة من الصور بناءً على سلسلة من التسميات التوضيحية المقابلة، مما يشكل قصة. بالإضافة إلى ذلك، وجدنا أن مهمة تصور القصة لا تستوعب التعميم لأحداث وشخصيات جديدة في القصص الجديدة. لذلك، نقترح أولاً مهمة استمرار القصة، حيث يتم شرط الإنتاج البصري للقصة على صورة مصدر، مما يتيح التعميم الأفضل للقصص التي تحتوي على شخصيات جديدة. ثم، نعزز أو نقوم بـ "الترجيع" لنموذج تحويل النص إلى صورة المُدرب مسبقًا بإضافة وحدات خاصة بالمهمة لـ (أ) إنشاء صور متتابعة و(ب) نسخ العناصر ذات الصلة من إطار أولي. بعد ذلك، نستكشف تعديل النموذج بالكامل وكذلك التعديل القائم على الدعوة لتكييف كفاءة المعلمات في النموذج المُدرب مسبقًا. نقيم نهجنا StoryDALL-E على مجموعة بيانات موجودتين هما PororoSV وFlintstonesSV، ونقدم مجموعة بيانات جديدة DiDeMoSV تم جمعها من مجموعة بيانات تعليقات الفيديو. كما طورنا نموذج StoryGANc المستند إلى شبكات المنافسة التوليدية (GAN) لاستمرار القصة، وقارناه مع نموذج StoryDALL-E لإظهار فوائد طريقتنا. أظهرنا أن طريقتنا للتكييف الرجعي تتفوق على النماذج المستندة إلى GAN في استمرار القصة وتيسير نسخ العناصر البصرية من الصورة المصدر، مما يحسن الاستمرارية في القصة المرئية المُنشأة. أخيرًا، تقترح تحليلاتنا أن المتحولات المُدربة مسبقًا تواجه صعوبة في فهم القصص التي تحتوي على العديد من الشخصيات. بشكل عام، يوضح عملنا أنه يمكن تكييف النماذج المُدربة مسبقًا لتحويل النص إلى صورة للمهام المعقدة والمنخفضة الموارد مثل استمرار القصة.