18日前

コンテキスト依存型ドメイン adversarial ニューラルネットワークを用いたマルチモーダル感情認識

{Rongjun Li, Zhanlei Yang, Jian Huang, Bin Liu, JianHua Tao, Zheng Lian}
要約

感情認識は発話者間の差異や低リソースな学習サンプルの存在により、依然として複雑な課題である。本研究では、このような課題に対処するため、感情認識に領域 adversarial ニューラルネットワーク(DANN)を適用する。主タスクは感情ラベルの予測であり、副次的なタスクとして、発話者の識別が不可能となる共通表現を学習することを目的とする。このアプローチにより、異なる発話者の表現間の距離を近づけることができる。さらに、訓練プロセスにおいてラベルなしデータを活用することで、低リソースな学習サンプルの影響を軽減する。一方で、既存の研究では、文脈情報およびマルチモーダル特徴が感情認識において重要であることが示されている。しかし、従来のDANNベースの手法はこれらの情報を無視しているため、性能に限界が生じていた。本論文では、マルチモーダル感情認識を目的として、文脈依存型領域 adversarial ニューラルネットワークを提案する。提案手法の有効性を検証するため、ベンチマークデータセットIEMOCAP上で実験を実施した。実験結果から、提案手法は最先端の手法に対して絶対的な性能向上(3.48%)を達成したことが明らかになった。