2ヶ月前
音声-映像感情認識における感情特徴と融合戦略の探求
Hengshun Zhou; Debin Meng; Yuanyuan Zhang; Xiaojiang Peng; Jun Du; Kai Wang; Yu Qiao

要約
音声映像に基づく感情認識の目的は、与えられた動画を基本的な感情に分類することである。本論文では、EmotiW 2019におけるアプローチについて説明し、主に音声と視覚モダリティの感情特徴量および特徴量融合戦略を探求する。感情特徴量に関しては、音声スペクトログラムとLog Melスペクトログラムの両方を使用した音声特徴量を探究し、異なるCNNモデルと異なる事前学習戦略で複数の顔特徴量を評価する。融合戦略に関しては、モダリティ内融合方法とクロスモダリティ融合方法を探求し、重要な感情特徴量を強調するために注意メカニズムを設計し、クロスモダリティ特徴量融合のために特徴量連結と因子分解双線形プーリング(Factorized Bilinear Pooling, FBP)を探求する。慎重な評価により、AFEW検証セットで65.5%、テストセットで62.48%の精度を得ることができ、チャレンジにおいて3位となった。