تخيّل، وتفكر، واكتب: سرد القصص البصرية باستخدام المعرفة الرسومية والاستدلال العلاقة
السرد البصري هو مهمة تُولِّد قصة قصيرة استنادًا إلى تدفق صور. يختلف عن الوصف البصري (Visual Captions)، حيث تتضمن القصص لا فقط وصفًا واقعيًا، بل أيضًا مفاهيم خيالية لا تظهر في الصور. في هذه الورقة، نُقدّم إطارًا جديدًا للإ generative يُسمى IRW (Imagine-Reason-Write)، مُستلهمًا من منطق الإنسان عند كتابة القصص. أولاً، نستخدم وحدة "الخيال" (Imagine Module) لتعلم قصة خيالية بشكل صريح، مما يُحسّن الاتساق والمنطق في القصة المُولَّدة. ثانيًا، نطبّق وحدة "الاستدلال" (Reason Module) لاستغلال المعرفة الخارجية (مثل قاعدة المعرفة الشائعة) والمعرفة المخصصة للمهمة (مثل الرسم البياني للسيناريو والرسم البياني للحدث) باستخدام منهجية استدلال علاقة قائمة على القصة. وبهذا، يمكننا اكتشاف العلاقات المعرفية المفيدة والمرتبطة بصور الأشياء بشكل فعّال، مما يُعزز تنوع القصة وغناها بالمعلومات. وأخيرًا، ندمج المفاهيم الخيالية مع المعرفة المتعلقة بالعلاقات لتكوين قصة تشبه ما يكتبه الإنسان، مع الحفاظ على المعنى الأصلي للصور. أظهرت تجارب واسعة على مجموعة بيانات معيارية (VIST) أن إطار IRW المُقترح يتفوّق بشكل ملحوظ على أحدث الأساليب في مجموعة متنوعة من مقاييس التقييم.