RAVDESSデータセットを用いたトランスファーラーニングを用いたマルチモーダル感情認識
感情認識は、医療分野や道路安全システムなど多岐にわたる応用可能性から、研究コミュニティの注目を集めている。本論文では、音声情報と顔面情報の2つのモダリティを活用するマルチモーダル感情認識システムを提案する。音声ベースのモダリティに関しては、トランスファーラーニング手法として、埋め込み抽出(embedding extraction)とファインチューニング(Fine-Tuning)を評価した。その結果、PANNsフレームワークに含まれるCNN-14をファインチューニングした場合に最も高い精度が達成され、特にタスクが類似している場合に、初期化から再学習を開始するよりも訓練がより安定するということが確認された。一方、顔面感情認識のためには、注目度マップおよび顔画像に対して事前学習された空間変換ネットワーク(Spatial Transformer Network)を用いたフレームワークを提案し、その後に注意機構(attention mechanism)を備えた双方向LSTM(bi-LSTM)を接続した。誤差分析の結果、ドメイン適応を施したにもかかわらず、フレームベースのシステムを直接動画ベースのタスクに適用する場合に問題が生じることが示された。これは、事前学習モデルが持つ埋め込み知識を効果的に活用するための新たな研究課題を提示している。最後に、これらの2つのモダリティを遅延統合(late fusion)戦略で統合した結果、RAVDESSデータセットにおいて、被験者ごとの5分割交差検証(subject-wise 5-CV)評価において80.08%の精度を達成し、8種類の感情を分類した。結果から、音声および顔面情報はユーザーの感情状態を検出する上で有意義な情報を含んでおり、両者の組み合わせによりシステム性能の向上が可能であることが明らかになった。