
要約
マルチモーダル言語解析は、話者の発話内容、音響的特徴、そして顔面表情を同時にモデル化することを目的とするNLP分野の急成長分野である。この分野において、語彙特徴(lexicon features)は、Transformerベースのモデルを用いて大規模コーパス上で事前学習されているため、他のモダリティに比べて優れた性能を発揮することが多い。しかし、マルチモーダル言語学習においては、データ不足のため、任意のモダリティに対して新たな自己教師学習(Self-Supervised Learning, SSL)Transformerモデルを訓練することは通常不可能である。本研究では、完全なTransformerモデルの訓練を伴わずに上記の制約に対処するため、TEASEL(Transformer-Based Speech-Prefixed Language Model)と呼ばれる新しいモデルを提案する。TEASELは従来の言語モデルと異なり、テキストモダリティに加えて、動的な音声モダリティをプレフィックスとして組み込む。このアプローチでは、従来の事前学習済み言語モデルをクロスモーダルTransformerモデルとして活用する。本モデルはCMU-MOSIデータセットで定義されたマルチモーダル感情分析タスクにおいて評価された。広範な実験の結果、TEASELは単一モダリティベースライン言語モデルに対してF1スコアで4%の向上を達成し、現在のマルチモーダル最先端(SoTA)モデルに対しても1%の上回る性能を示した。さらに、本研究で提案する手法はSoTAモデルに比べてモデルサイズが72%小さく、効率性に優れている。