HyperAIHyperAI

Command Palette

Search for a command to run...

نظام NITS-VC لتحدي الترجمة النصية للفيديوهات VATEX 2020

Alok Singh Thoudam Doren Singh Sivaji Bandyopadhyay

الملخص

يُعدّ توصيف الفيديو (Video Captioning) عملية تلخيص محتوى الفيديو وحدثه وحركته في صيغة نصية قصيرة، وهي تُعدّ مفيدة في العديد من مجالات البحث مثل الترجمة الآلية المدعومة بالفيديو، وتحليل مشاعر الفيديو، وتقديم المساعدة لأفراد في حاجة. في هذه الورقة، يتم عرض وصف لنظام الإطار المستخدم في تحدي توصيف الفيديو VATEX-2020. ونستخدم نهجًا مبنيًا على الترميز والفك (Encoder-Decoder)، حيث يتم ترميز السمات البصرية للفيديو باستخدام شبكة عصبية متعددة الأبعاد (C3D)، وفي مرحلة التفكيك، تُستخدم شبكتان متكررتان من نوع Long Short Term Memory (LSTM) يتم خلالهما دمج السمات البصرية والنصوص المدخلة بشكل منفصل، ثم يتم إنتاج الناتج النهائي من خلال إجراء عملية الضرب القياسي (element-wise product) بين ناتجي كلا الشبكتين LSTM. وقد تمكّن نموذجنا من تحقيق معدلات BLEU قدرها 0.20 و0.22 على مجموعتي البيانات الخاصة بالاختبار العام والخاص على التوالي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp