HyperAIHyperAI

Command Palette

Search for a command to run...

إطار عمل لتوليد العناوين لمقاطع الفيديو المستند إلى الانتباه بالهندية

Sivaji Bandyopadhyay · Thoudam Doren Singh Alok Singh

الملخص

في الآونة الأخيرة، تُجرى أبحاث نشطة لسد الفجوة بين الرؤية الحاسوبية واللغة الطبيعية. وفي هذه الورقة، نسعى إلى معالجة مشكلة وصف مقاطع الفيديو الهندية. وفي دولة لغوية متنوعة مثل الهند، من المهم توفير وسيلة تساعد على فهم الكيانات البصرية بلغات وطنية. وفي هذا العمل، نستخدم آلية انتباه هجينة من خلال توسيع آلية الانتباه الزمني اللين (soft temporal attention) بدمج انتباه دلالي، مما يجعل النظام قادرًا على اتخاذ قرار بشأن متى يركز على متجه السياق البصري والمدخلات الدلالية. يتم استخراج متجه السياق البصري للفيديو المدخل باستخدام شبكة عصبية متعددة الأبعاد (3D CNN)، بينما تُستخدم شبكة متكررة من نوع LSTM مع وحدة انتباه لفك تشفير المتجه المُشفَّر. وقد قمنا باختبار النظام على مجموعة بيانات تم إنشاؤها داخليًا لوصف مقاطع الفيديو الهندية، وذلك من خلال ترجمة مجموعة بيانات MSR-VTT متبوعة بتحرير لاحق. وحقق النظام نتيجة قدرها 0.369 في معيار CIDEr و0.393 في معيار METEOR، وتفوق بذلك على نماذج المقارنة الأخرى، بما في ذلك النموذج القائم على RMN (شبكات وحدة الاستدلال).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp