17日前

MMLatch:マルチモーダルセンチメント分析のためのボトムアップ・トップダウン統合

Georgios Paraskevopoulos, Efthymios Georgiou, Alexandros Potamianos
MMLatch:マルチモーダルセンチメント分析のためのボトムアップ・トップダウン統合
要約

現在のマルチモーダル融合に向けたディープラーニング手法は、高レベルおよび中レベルの潜在的モダリティ表現(ラテ・フォージュンまたはミッド・フォージュン)を下位から統合するアプローチ、あるいは低レベルの感覚入力を直接統合するアプローチ(イアリー・フォージュン)に依存している。一方、人間の知覚モデルでは、上位からの統合(トップダウン・フォージュン)の重要性が強調されており、ここでは高レベルな表現が感覚入力の知覚に影響を与える、すなわち認知が知覚に作用するというメカニズムが重要である。しかし、現在のディープラーニングモデルではこのようなトップダウンの相互作用は捉えられていない。本研究では、ネットワークの学習過程におけるフォワードパスにおいてフィードバック機構を用いることで、トップダウンのクロスモダリティ相互作用を捉えるニューラルアーキテクチャを提案する。提案手法は、各モダリティに対して高レベルな表現を抽出し、その表現を用いて感覚入力をマスクすることで、トップダウン特徴マスクを実現する。本手法をCMU-MOSEIデータセットにおけるマルチモーダル感情認識タスクに適用した結果、既存の定評あるMulTモデルおよび強力なラテ・フォージュンベースラインに対して一貫した性能向上を達成し、最先端の結果を獲得した。