2ヶ月前
非対応多モーダル言語シーケンスのためのマルチモーダルトランスフォーマー
Yao-Hung Hubert Tsai; Shaojie Bai; Paul Pu Liang; J. Zico Kolter; Louis-Philippe Morency; Ruslan Salakhutdinov

要約
人間の言語はしばしばマルチモーダルであり、自然言語、顔のジェスチャー、音響行動の混合から構成されています。しかし、このようなマルチモーダルな人間言語時系列データをモデル化する際には、2つの主要な課題が存在します:1)各モーダルからのシーケンスの可変サンプリングレートにより生じるデータの非対応性;2)モーダル間で要素間に存在する長距離依存関係。本論文では、これらの問題を明示的なデータアライメントなしで一貫して解決するために、マルチモーダルトランスフォーマー(Multimodal Transformer, MulT)を提案します。当モデルの中心にあるのは方向性のあるペアワイズクロスモーダル注意機構で、これは異なる時間ステップにわたるマルチモーダルシーケンス間の相互作用に注目し、一方のモーダルから他方へのストリームを潜在的に適応させます。アライメント済みおよび未アライメントのマルチモーダル時系列データに対する包括的な実験結果は、当モデルが最先端手法を大幅に上回ることを示しています。さらに経験的分析は、MulTにおける提案されたクロスモーダル注意機構が相関するクロスモーダル信号を捉えることができることを示唆しています。