السرد البصري المتماسك عبر الانتباه البصري والمواضيعي التصاعدي المتوازِي
تهدف القصة البصرية إلى إنتاج فقرة سردية تلقائية لحزمة صور معينة. وتشكل هذه المهمة تحديات جديدة أكثر من وصف الصور الفردية، وذلك بشكل رئيسي بسبب الصعوبة في الحفاظ على موضوعات متماسكة وتفادي التكرار في صياغة العبارات التي تصف المحتوى الغني لحزمة الصور. غالبًا ما تؤدي النماذج القائمة على الانتباه التي تعاني من نقص في المعلومات التوجيهية على المستوى الأعلى إلى انحراف بين الجملة المولدة والمضمون الذي تعبر عنه الصورة. بالإضافة إلى ذلك، تميل هذه النماذج الشائعة لإنجاز إنشاء النصوص، والتي تعتمد على خوارزمية البحث الشعاعي القياسية، إلى إنتاج وصف ممل ومكرر. في هذا العمل، تم تصميم إطار عمل متماسك للقصة البصرية (CoVS) لمعالجة المشكلات المذكورة أعلاه. وبشكل محدد، في مرحلة الترميز، تم تصميم معالج تسلسلي للصور لاستخراج الميزات البصرية للمجموعة المدخلة بكفاءة. ثم تم بناء مُفكّك جديد يُعرف بـ (PTDVTA) الذي يعتمد على نموذج انتباه متوازٍ من الأعلى إلى الأسفل، وشبكة عصبية واعية بالمضمون، ونموذج انتباه بصري متوازٍ من الأعلى إلى الأسفل، ومولّد لغوي متماسك. وبشكل دقيق، يركز الانتباه البصري على صفات الكائنات والعلاقات بينها، بينما يعزز الانتباه الموضوعي، الذي يدمج شبكة عصبية واعية بالمضمون، من تماسك الجمل المولدة. في النهاية، تم تصميم خوارزمية بحث شعاعي للعبارات تستخدم تنويعًا قائمًا على مسافة هامينغ من الرموز (n-gram hamming diversity) لتحسين تنوع التعبير في القصة المولدة. ولإثبات فعالية الإطار المُقترح CoVS، أُجريت تجارب واسعة النطاق على مجموعة بيانات VIST، والتي أظهرت أن CoVS يمكنه توليد قصص متماسكة ومتعددة التنويع بشكل طبيعي أكثر. علاوة على ذلك، حقق CoVS أداءً أفضل من النماذج الحالية في مؤشرات BLEU-4 وMETEOR، مع الحفاظ على أداء جيد في مؤشرات CIDEr وROUGH_L. يمكن الوصول إلى الشفرة المصدرية لهذا العمل من خلال الرابط: https://mic.tongji.edu.cn.