6ヶ月前

概要

ビデオレベルの感情分析は、複数モダリティ間の感情差を捉えることができる識別性の高いマルチモーダル表現をシステムが獲得する必要がある、非常に困難なタスクである。しかし、異なるモダリティ間で分布が多様であり、統一されたマルチモーダルラベルが単一モダリティ学習に常に適応できるわけではないため、単一モダリティ表現間の距離差が増大し、識別性の高いマルチモーダル表現の学習を阻害する。本論文では、システムの性能をさらに向上させるために、より識別性の高いマルチモーダル表現を獲得するため、変分自己符号化器（VAE）をベースとした敵対的マルチモーダルドメイン転送（VAE-AMDT）を提案し、これをマルチアテンションモジュールと共同で学習することで、単一モダリティ表現間の距離差を低減する。まず、変分自己符号化器（VAE）を用いて視覚的、言語的、音声的表現が共通の分布に従うように調整し、その後、敵対的学習を導入してすべての単一モダリティ表現を統合埋め込み空間に転送する。その結果、自己アテンション、クロスアテンション、トリプルアテンションを組み合わせたマルチアテンションモジュールを用いて、時間的・モダリティ的視点から重要な感情表現を強調しながら、さまざまなモダリティを統合埋め込み空間上で融合する。本手法は、MOSIデータセットにおいて最先端技術比でF1スコアを3.6%向上させ、MOSEIデータセットでは2.9%向上させ、ビデオレベルの感情分析における識別性の高いマルチモーダル表現を獲得する有効性を実証した。

ソースPDF