الوصف المتنوع للفيديوهات باستخدام الانتباه الزمني المكاني التكيفي

لإنشاء عناوين مناسبة للفيديوهات، يجب على عملية الاستنتاج التعرف على المفاهيم ذات الصلة والانتباه إلى العلاقات المكانية بينها، فضلاً عن التطور الزمني داخل المشهد. يدمج إطارنا المتكامل لتحليل الفيديو وتكوين العناوين معماريتين مبنيتين على المحولات (Transformers)، ألا وهما: محول معدّل لتحليل مكاني-زمني موحد للفيديو، بالإضافة إلى مُفكّك يستند إلى الانتباه الذاتي لتحسين توليد النصوص. علاوةً على ذلك، نقدّم خطة اختيار إطارات تكيفية لتقليل عدد الإطارات الداخلة المطلوبة مع الحفاظ على المحتوى المهم أثناء تدريب كلا المحولين. كما نقدّر المفاهيم الدلالية ذات الصلة بتكوين عناوين الفيديو من خلال تجميع جميع العناوين الصحيحة (ground truth) لكل عينة. تُظهر نتائج منهجنا تفوقًا على أفضل النتائج المُسجّلة في مجموعات بيانات MSVD، وكذلك في مجموعات البيانات الواسعة النطاق MSR-VTT وVATEX، وذلك عند تقييمها باستخدام عدة مقاييس لتجسيد اللغة الطبيعية (NLG). وتُبرز التقييمات الإضافية المتعلقة بدرجات التنوّع التعبيرية والتنوع في هيكل العناوين المولّدة من خلال منهجنا.