شبكة انتباه بصرية-صوتية من النهاية إلى النهاية لتحديد العواطف في مقاطع الفيديو التي ينشئها المستخدمون

التعرف على العواطف في مقاطع الفيديو التي ينتجها المستخدمون يلعب دورًا مهمًا في الحوسبة المتمحورة حول الإنسان. تستخدم الطرق الحالية بشكل أساسي أنابيب معالجة سطحية ثنائية المرحلة تقليدية، أي استخراج الخصائص البصرية والصوتية وتدريب المصنفات. في هذا البحث، نقترح التعرف على عواطف الفيديو بطريقة شاملة من النهاية إلى النهاية تعتمد على الشبكات العصبية التلافيفية (CNNs). تحديدًا، قمنا بتطوير شبكة انتباه بصرية-صوتية عميقة (VAANet)، وهي هندسة جديدة تدمج الانتباهات المكانية والقناة والزمانية في CNN ثلاثي الأبعاد بصري وانتباهات زمانية في CNN ثنائي الأبعاد صوتي. بالإضافة إلى ذلك، صممنا خسارة تصنيف خاصة، وهي خسارة التربيع العكسي للقطبية (polarity-consistent cross-entropy loss)، بناءً على قيد هرم القطب والعاطفة لتسهيل إنشاء الانتباه. أظهرت التجارب الواسعة التي أجريت على مجموعات البيانات الصعبة VideoEmotion-8 وEkman-6 أن الشبكة المقترحة VAANet تتفوق على أفضل الأساليب الحالية للتعرف على عواطف الفيديو. تم نشر شفرتنا المصدر على الرابط التالي: https://github.com/maysonma/VAANet.请注意,"polarity-consistent cross-entropy loss" 是一个不太常见的术语,因此在阿拉伯语翻译中保留了英文标注。其他术语如 "convolutional neural networks" 和 "Visual-Audio Attention Network" 已经使用了通用的阿拉伯语译法。