
要約
多モーダル感情分析は、非常に活発に成長している研究分野です。この分野における有望な機会の一つは、多モーダル融合メカニズムの改善です。本稿では、階層的な方法で進行する新しい特徴量融合戦略を提案します。まず、モーダルを2つずつ融合し、その後すべての3つのモーダルを融合します。個々の発話に対する多モーダル感情分析において、当社の戦略は従来の特徴量連結よりも1%優れており、これは誤り率が5%減少することを意味します。複数の発話を含むビデオクリップの発話レベルでの多モーダル感情分析において、現行の最先端技術が同じクリップ内の他の発話からの文脈情報を組み込む一方で、当社の階層的融合は現在使用されている連結に対して最大2.4%(ほぼ10%の誤り率減少)の向上を示しました。当社の手法の実装はオープンソースコードとして公開されています。