2ヶ月前

ユーザー生成ビデオにおける感情認識のためのエンドツーエンド視覚音声注意ネットワーク

Sicheng Zhao; Yunsheng Ma; Yang Gu; Jufeng Yang; Tengfei Xing; Pengfei Xu; Runbo Hu; Hua Chai; Kurt Keutzer
ユーザー生成ビデオにおける感情認識のためのエンドツーエンド視覚音声注意ネットワーク
要約

ユーザ生成ビデオにおける感情認識は、人間中心の計算において重要な役割を果たしています。既存の手法は主に伝統的な二段階の浅いパイプライン、つまり視覚および/または音響特徴量の抽出と分類器の学習を用いています。本論文では、畳み込みニューラルネットワーク(CNN)に基づいたエンドツーエンドでのビデオ感情認識を提案します。特に、空間的、チャネルごとの、および時間的注意を視覚3D CNNに、時間的注意を音響2D CNNに統合した新しいアーキテクチャである深層視覚音響注意ネットワーク(VAANet)を開発しました。さらに、極性-感情階層制約に基づく特殊な分類損失関数、すなわち極性一貫クロスエントロピー損失関数を設計し、注意生成をガイドします。VideoEmotion-8およびEkman-6という難易度の高いデータセットで実施された広範な実験により、提案されたVAANetがビデオ感情認識における最先端手法を超えることが示されました。当方のソースコードは以下のURLで公開されています: https://github.com/maysonma/VAANet.

ユーザー生成ビデオにおける感情認識のためのエンドツーエンド視覚音声注意ネットワーク | 最新論文 | HyperAI超神経