HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة انتباه بصرية-صوتية من النهاية إلى النهاية لتحديد العواطف في مقاطع الفيديو التي ينشئها المستخدمون

Sicheng Zhao; Yunsheng Ma; Yang Gu; Jufeng Yang; Tengfei Xing; Pengfei Xu; Runbo Hu; Hua Chai; Kurt Keutzer

الملخص

التعرف على العواطف في مقاطع الفيديو التي ينتجها المستخدمون يلعب دورًا مهمًا في الحوسبة المتمحورة حول الإنسان. تستخدم الطرق الحالية بشكل أساسي أنابيب معالجة سطحية ثنائية المرحلة تقليدية، أي استخراج الخصائص البصرية والصوتية وتدريب المصنفات. في هذا البحث، نقترح التعرف على عواطف الفيديو بطريقة شاملة من النهاية إلى النهاية تعتمد على الشبكات العصبية التلافيفية (CNNs). تحديدًا، قمنا بتطوير شبكة انتباه بصرية-صوتية عميقة (VAANet)، وهي هندسة جديدة تدمج الانتباهات المكانية والقناة والزمانية في CNN ثلاثي الأبعاد بصري وانتباهات زمانية في CNN ثنائي الأبعاد صوتي. بالإضافة إلى ذلك، صممنا خسارة تصنيف خاصة، وهي خسارة التربيع العكسي للقطبية (polarity-consistent cross-entropy loss)، بناءً على قيد هرم القطب والعاطفة لتسهيل إنشاء الانتباه. أظهرت التجارب الواسعة التي أجريت على مجموعات البيانات الصعبة VideoEmotion-8 وEkman-6 أن الشبكة المقترحة VAANet تتفوق على أفضل الأساليب الحالية للتعرف على عواطف الفيديو. تم نشر شفرتنا المصدر على الرابط التالي: https://github.com/maysonma/VAANet.请注意,"polarity-consistent cross-entropy loss" 是一个不太常见的术语,因此在阿拉伯语翻译中保留了英文标注。其他术语如 "convolutional neural networks" 和 "Visual-Audio Attention Network" 已经使用了通用的阿拉伯语译法。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp