2ヶ月前

多層注意リカレントネットワークによる人間のコミュニケーション理解

Amir Zadeh; Paul Pu Liang; Soujanya Poria; Prateek Vij; Erik Cambria; Louis-Philippe Morency
多層注意リカレントネットワークによる人間のコミュニケーション理解
要約

人間の対面コミュニケーションは複雑な多モーダル信号である。私たちは言葉(言語モーダル)、ジェスチャー(視覚モーダル)、そして音調の変化(音響モーダル)を使用して自分の意図を伝える。人間は対面コミュニケーションを容易に処理し理解することができるが、この形式のコミュニケーションを理解することは人工知能(AI)にとって依然として大きな課題である。本論文では、人間のコミュニケーションを理解するための新しいニューラルアーキテクチャであるマルチアテンションリカレントネットワーク(Multi-attention Recurrent Network: MARN)を提案する。当モデルの主な強みは、時間軸上で各モーダル間の相互作用を見つけるために使用されるニューラルコンポーネントであるマルチアテンションブロック(Multi-attention Block: MAB)と、その相互作用を長短期ハイブリッドメモリー(Long-short Term Hybrid Memory: LSTHM)という再帰的コンポーネントのハイブリッドメモリーに保存することにある。我々は6つの公開データセットにおいて多モーダル感情分析、話者特性認識、感情認識について広範な比較を行った。MARNはすべてのデータセットで最先端の性能を示した。

多層注意リカレントネットワークによる人間のコミュニケーション理解 | 最新論文 | HyperAI超神経