إخفاء وسرد: تعلم جسر تدفقات الصور لسرد القصص البصرية

السرد البصري هو مهمة تُنشئ قصة قصيرة بناءً على تدفق صور. على عكس التسمية البصرية الحالية، يهدف السرد إلى تضمين ليس فقط وصفًا واقعيًا، بل أيضًا سردًا بشريًا ودلالات معنوية. ومع ذلك، يحتوي مجموعة بيانات VIST فقط على عدد صغير وثابت من الصور لكل قصة. وبالتالي، يكمن التحدي الرئيسي في السرد البصري في ملء الفجوة البصرية بين الصور باستخدام سرد خيالي وخيالي. في هذه الورقة، نقترح تعلُّمًا صريحًا لتخيل سرد قصصي يُسند الفجوة البصرية. أثناء التدريب، يتم حذف صورة واحدة أو أكثر عشوائيًا من المكدس المدخل، ونُدرّب الشبكة على إنتاج قصة كاملة مُعقولة حتى مع غياب صورة أو أكثر. علاوةً على ذلك، نقترح نموذجًا يُسمى "إخفاء وسرد" (hide-and-tell) مخصصًا للسرد البصري، والذي صُمّم لتعلم العلاقات غير المحلية عبر تدفقات الصور، وتحسين نماذج RNN التقليدية. في التجارب، نُظهر أن مخططنا "إخفاء وسرد" وتصميم الشبكة فعّالان حقًا في السرد القصصي، وأن نموذجنا يتفوّق على الطرق الرائدة السابقة من حيث المقاييس التلقائية. وأخيرًا، نُظهر جودة تعلُّم القدرة على استكمال السرد القصصي عبر الفجوات البصرية بشكل نوعي.