منذ 6 أشهر

الملخص

يُعدّ توصيف الفيديو (Video Captioning) عملية تلخيص محتوى الفيديو وحدثه وحركته في صيغة نصية قصيرة، وهي تُعدّ مفيدة في العديد من مجالات البحث مثل الترجمة الآلية المدعومة بالفيديو، وتحليل مشاعر الفيديو، وتقديم المساعدة لأفراد في حاجة. في هذه الورقة، يتم عرض وصف لنظام الإطار المستخدم في تحدي توصيف الفيديو VATEX-2020. ونستخدم نهجًا مبنيًا على الترميز والفك (Encoder-Decoder)، حيث يتم ترميز السمات البصرية للفيديو باستخدام شبكة عصبية متعددة الأبعاد (C3D)، وفي مرحلة التفكيك، تُستخدم شبكتان متكررتان من نوع Long Short Term Memory (LSTM) يتم خلالهما دمج السمات البصرية والنصوص المدخلة بشكل منفصل، ثم يتم إنتاج الناتج النهائي من خلال إجراء عملية الضرب القياسي (element-wise product) بين ناتجي كلا الشبكتين LSTM. وقد تمكّن نموذجنا من تحقيق معدلات BLEU قدرها 0.20 و0.22 على مجموعتي البيانات الخاصة بالاختبار العام والخاص على التوالي.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار