عرض القصة المتماسكة الحافظة للشخصيات

تهدف التصور القصصي إلى إنتاج تسلسل من الصور لسرد كل جملة في قصة مكونة من جمل متعددة. على عكس توليد الفيديو الذي يركز على الحفاظ على الاستمرارية بين الصور المولدة (الإطارات)، يُركّز التصور القصصي على الحفاظ على الاتساق العام للشخصيات والمشاهد عبر الصور المختلفة المتعلقة بالقصة، وهو أمر صعب جدًا نظرًا لأن الجمل القصصية توفر فقط إشارات متباعدة لعملية توليد الصور. ولذلك، نقترح إطارًا جديدًا يُسمى "التصور القصصي المتماسك المُحافظ على الشخصية" (CP-CSV) لمعالجة هذه التحديات. يتميّز CP-CSV بتعلّمه الفعّال لتصور القصة من خلال ثلاث وحدات حاسمة: مشفر القصة والسياق (لتعلم تمثيل القصة والجمل)، وتقسيم الخلفية والشكل (مهمة مساعدة لتوفير معلومات تُسهم في الحفاظ على اتساق الشخصية والقصة)، وعملية التوليد المُدركة للشكل والخلفية (توليد تسلسل الصور من خلال دمج معلومات الشكل والخلفية). علاوةً على ذلك، نقترح مقياسًا يُسمى "المسافة القصصية فريشيه" (FSD) لتقييم أداء التصور القصصي. تُظهر التجارب الواسعة أن CP-CSV يحافظ على تفاصيل معلومات الشخصية ويحقق اتساقًا عاليًا بين الإطارات المختلفة، في حين أن FSD يقيّم أداء التصور القصصي بشكل أفضل.