17日前
TransModality:Transformerを用いたマルチモーダル感情分析のためのエンドツーエンド融合手法
Zilong Wang, Zhaohong Wan, Xiaojun Wan

要約
マルチモーダル感情分析は、テキスト、視覚、音声モダリティから抽出された特徴を用いて発話者の感情傾向を予測する重要な研究分野である。この分野における中心的な課題は、複数モダリティ情報の融合手法の設計である。これまでに多様な融合手法が提案されてきたが、モダリティ間の微細な相関関係を抽出するためにエンド・ツー・エンドの翻訳モデルを採用した手法は少ない。近年の機械翻訳分野におけるTransformerの成功に着想を得て、本研究ではマルチモーダル感情分析のタスクに対応するための新たな融合手法「TransModality」を提案する。我々は、モダリティ間の相互翻訳が発話者の統合表現をより良くする可能性があると仮定する。Transformerを用いることで、学習された特徴は対象モダリティだけでなく、元モダリティからの情報も同時に捉えることができる。提案手法は、CMU-MOSI、MELD、IEMOCAPの複数のマルチモーダルデータセット上で検証された。実験の結果、本手法は最先端の性能を達成することが示された。