مُشغّل المشهد الفوتوغرافي الهرمي لرواية القصص في الألبومات

في هذه الورقة البحثية، نقترح نموذجًا جديدًا يحتوي على مُشفِّر مشهد صوري هرمي ومُعيد بناء للقيام بمهمة سرد قصة الألبوم. يتكون المُشفِّر المشهد الصوري من مُشفِّرين فرعيين، وهما مُشفِّر الصورة ومُشفِّر المشهد، اللذان يتم تجميعهما معًا ويتعاملان بطريقة هرمية لاستغلال المعلومات البنيوية للصور داخل الألبوم بشكل كامل. بوجه خاص، يقوم مُشفِّر الصورة بإنشاء تمثيل دلالي لكل صورة مع استغلال العلاقات الزمنية بينها. أما مُشفِّر المشهد فيعتمد على التمثيلات الصورية الم��وبة ليتولى اكتشاف تغيرات المشاهد وإنشاء تمثيلات للمشاهد. بعد ذلك، يقوم المفكك بتلخيص التمثيلات الصورية والمشهدية المُشفرة بشكل ديناميكي وانتقائي لإنتاج سلسلة من تمثيلات الألبوم، والتي تعتمد عليها لإنشاء قصة تتكون من جمل متعددة متناسقة. لاستخراج المعلومات الدلالية المفيدة من الألبوم بشكل كامل، يتم استخدام معيد البناء لإعادة إنتاج التمثيلات الملخصة للألبوم بناءً على الحالة الخفية للمفكك. يمكن تدريب النموذج المقترح بطريقة شاملة من البداية إلى النهاية، مما يؤدي إلى تحسين الأداء فوق أفضل النماذج الحالية في مجموعة بيانات سرد القصص المرئية العامة (VIST). كما أن دراسات الإلغاء الجزئي تثبت فعالية المُشفِّر المشهد الصوري الهرمي ومعيد البناء المقترحين.