إطار عمل لتوليد العناوين لمقاطع الفيديو المستند إلى الانتباه بالهندية
في الآونة الأخيرة، تُجرى أبحاث نشطة لسد الفجوة بين الرؤية الحاسوبية واللغة الطبيعية. وفي هذه الورقة، نسعى إلى معالجة مشكلة وصف مقاطع الفيديو الهندية. وفي دولة لغوية متنوعة مثل الهند، من المهم توفير وسيلة تساعد على فهم الكيانات البصرية بلغات وطنية. وفي هذا العمل، نستخدم آلية انتباه هجينة من خلال توسيع آلية الانتباه الزمني اللين (soft temporal attention) بدمج انتباه دلالي، مما يجعل النظام قادرًا على اتخاذ قرار بشأن متى يركز على متجه السياق البصري والمدخلات الدلالية. يتم استخراج متجه السياق البصري للفيديو المدخل باستخدام شبكة عصبية متعددة الأبعاد (3D CNN)، بينما تُستخدم شبكة متكررة من نوع LSTM مع وحدة انتباه لفك تشفير المتجه المُشفَّر. وقد قمنا باختبار النظام على مجموعة بيانات تم إنشاؤها داخليًا لوصف مقاطع الفيديو الهندية، وذلك من خلال ترجمة مجموعة بيانات MSR-VTT متبوعة بتحرير لاحق. وحقق النظام نتيجة قدرها 0.369 في معيار CIDEr و0.393 في معيار METEOR، وتفوق بذلك على نماذج المقارنة الأخرى، بما في ذلك النموذج القائم على RMN (شبكات وحدة الاستدلال).