Story2Board: نهج لا يتطلب تدريبًا لإنشاء لوحات قصصية تعبيرية

نقدّم "ستوري تو بورد" (Story2Board)، إطارًا خالٍ من التدريب لإنشاء لوحات قصصية تعبيرية من لغة طبيعية. تركز الطرق الحالية بشكل ضيق على هوية الموضوع، وتتجاهل جوانب أساسية في السرد البصري مثل التكوين المكاني، وتطور الخلفية، وтемп السرد. ولحل هذه المشكلة، نقدّم إطارًا خفيف الوزن للاتساق يتكون من مكوّنين: تثبيت اللوحة في الفضاء الخفي (Latent Panel Anchoring)، الذي يحافظ على مرجع مشترك للشخصية عبر اللوحات المختلفة، وخلط قيم الانتباه المتبادل (Reciprocal Attention Value Mixing)، الذي يُمزج بشكل لطيف بين السمات البصرية لزوج من العناصر ذات الانتباه المتبادل القوي. وبشكل مشترك، تُعزز هذه الآليات من الاتساق دون الحاجة إلى تغيير في البنية المعمارية أو التدريب الدقيق، مما يمكّن نماذج التشتت المتطورة من إنتاج لوحات قصصية متنوعة بصريًا ولكنها متسقة. لتنظيم عملية الإنشاء، نستخدم نموذج لغوي جاهز لتحويل القصص الحرة إلى أوامر موجهة على مستوى اللوحة، مبنية على أساس واقعي. ولتقدير الأداء، نقترح "مختبر لوحات القصص الغنية" (Rich Storyboard Benchmark)، وهو مجموعة من القصص المفتوحة المجال مصممة لتقييم تنوع التخطيط، والسرد القائم على الخلفية، بالإضافة إلى الاتساق. كما نقدّم أيضًا مقياسًا جديدًا يُسمى تنوع المشهد (Scene Diversity)، الذي يُقَدِّر التباين المكاني والوضعية عبر لوحات القصص. تُظهر النتائج الكمية والكيفية، بالإضافة إلى دراسة المستخدمين، أن "ستوري تو بورد" تُنتج لوحات قصصية أكثر ديناميكية، واتساقًا، وتجذب القارئ بشكل سردي، متفوقةً على النماذج القائمة.