نظام NITS-VC لتحدي الترجمة النصية للفيديوهات VATEX 2020

يُعدّ توصيف الفيديو (Video Captioning) عملية تلخيص محتوى الفيديو وحدثه وحركته في صيغة نصية قصيرة، وهي تُعدّ مفيدة في العديد من مجالات البحث مثل الترجمة الآلية المدعومة بالفيديو، وتحليل مشاعر الفيديو، وتقديم المساعدة لأفراد في حاجة. في هذه الورقة، يتم عرض وصف لنظام الإطار المستخدم في تحدي توصيف الفيديو VATEX-2020. ونستخدم نهجًا مبنيًا على الترميز والفك (Encoder-Decoder)، حيث يتم ترميز السمات البصرية للفيديو باستخدام شبكة عصبية متعددة الأبعاد (C3D)، وفي مرحلة التفكيك، تُستخدم شبكتان متكررتان من نوع Long Short Term Memory (LSTM) يتم خلالهما دمج السمات البصرية والنصوص المدخلة بشكل منفصل، ثم يتم إنتاج الناتج النهائي من خلال إجراء عملية الضرب القياسي (element-wise product) بين ناتجي كلا الشبكتين LSTM. وقد تمكّن نموذجنا من تحقيق معدلات BLEU قدرها 0.20 و0.22 على مجموعتي البيانات الخاصة بالاختبار العام والخاص على التوالي.