HyperAIHyperAI

Command Palette

Search for a command to run...

HCAM — マルチモーダル感情認識のための階層的クロスアテンションモデル

Soumya Dutta Sriram Ganapathy

概要

会話における感情認識は、感情表現のマルチモーダル性に起因して困難な課題である。本研究では、再帰型および共注意(co-attention)ニューラルネットワークモデルを組み合わせることで、マルチモーダル感情認識を実現する階層的クロス注意モデル(Hierarchical Cross-Attention Model, HCAM)を提案する。モデルの入力は2つのモダリティから構成される:i) 学習可能なwav2vec手法を用いて処理された音声データ、およびii) 二方向エンコーダ表現(Bidirectional Encoder Representations from Transformers, BERT)モデルにより表現されたテキストデータ。音声およびテキスト表現は、自己注意(self-attention)機構を備えた双方向再帰型ニューラルネットワーク(Bi-directional Recurrent Neural Network, Bi-RNN)層を用いて処理され、会話内の各発話(utterance)を固定次元の埋め込み表現に変換する。さらに、文脈知識および2つのモダリティ間の相互情報を統合するために、音声およびテキストの埋め込み表現は共注意層を介して統合され、感情認識というタスクに有用な発話レベルの埋め込みを重み付けする。音声層、テキスト層、およびマルチモーダル共注意層のニューラルネットワークパラメータは、感情分類タスクに向け、階層的に学習される。本研究では、IEMOCAP、MELD、CMU-MOSIの3つの代表的なデータセット上で実験を行い、提案モデルが他のベースライン手法を顕著に上回り、これらのすべてのデータセットで最先端(state-of-the-art)の性能を達成できることを示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています