نهج تسلسلي لإنشاء فقرات وصفية للصور

التقدم الحديث في مجال وصف الصور جعل من الممكن إنشاء جمل جديدة تصف الصور بلغة طبيعية، ولكن ضغط صورة في جملة واحدة يمكن أن يصف المحتوى البصري بتفاصيل خشنة فقط. بينما يمكن لنهج جديد في الوصف، وهو الوصف الكثيف (Dense Captioning)، أن يصف الصور بمستويات أدق من التفاصيل عن طريق وصف العديد من المناطق داخل الصورة، فإنه بدوره غير قادر على إنتاج قصة متماسكة للصورة. في هذا البحث، نتغلب على هذه القيود بإنشاء فقرات كاملة لوصف الصور، والتي يمكنها أن تروي قصصًا مفصلة ومتحدة. نطور نموذجًا يفكك كلًا من الصور والفقرات إلى أجزائهما المكونة، حيث يكتشف المناطق الدلالية في الصور ويستخدم شبكة عصبية متكررة هرمية لاستدلال اللغة. تؤكد التحليلات اللغوية تعقيد مهمة إنشاء الفقرات، وتظهر التجارب الشاملة على مجموعة بيانات جديدة تتضمن أزواجًا من الصور والفقرات فعالية نهجنا.