11日前

HCAM — マルチモーダル感情認識のための階層的クロスアテンションモデル

Soumya Dutta, Sriram Ganapathy
HCAM — マルチモーダル感情認識のための階層的クロスアテンションモデル
要約

会話における感情認識は、感情表現のマルチモーダル性に起因して困難な課題である。本研究では、再帰型および共注意(co-attention)ニューラルネットワークモデルを組み合わせることで、マルチモーダル感情認識を実現する階層的クロス注意モデル(Hierarchical Cross-Attention Model, HCAM)を提案する。モデルの入力は2つのモダリティから構成される:i) 学習可能なwav2vec手法を用いて処理された音声データ、およびii) 二方向エンコーダ表現(Bidirectional Encoder Representations from Transformers, BERT)モデルにより表現されたテキストデータ。音声およびテキスト表現は、自己注意(self-attention)機構を備えた双方向再帰型ニューラルネットワーク(Bi-directional Recurrent Neural Network, Bi-RNN)層を用いて処理され、会話内の各発話(utterance)を固定次元の埋め込み表現に変換する。さらに、文脈知識および2つのモダリティ間の相互情報を統合するために、音声およびテキストの埋め込み表現は共注意層を介して統合され、感情認識というタスクに有用な発話レベルの埋め込みを重み付けする。音声層、テキスト層、およびマルチモーダル共注意層のニューラルネットワークパラメータは、感情分類タスクに向け、階層的に学習される。本研究では、IEMOCAP、MELD、CMU-MOSIの3つの代表的なデータセット上で実験を行い、提案モデルが他のベースライン手法を顕著に上回り、これらのすべてのデータセットで最先端(state-of-the-art)の性能を達成できることを示した。

HCAM — マルチモーダル感情認識のための階層的クロスアテンションモデル | 最新論文 | HyperAI超神経