HyperAIHyperAI

Command Palette

Search for a command to run...

非対応多モーダル言語シーケンスのためのマルチモーダルトランスフォーマー

Yao-Hung Hubert Tsai *equal contribution Shaojie Bai *equal contribution J. Zico Kolter Louis-Philippe Morency Paul Pu Liang Ruslan Salakhutdinov

概要

人間の言語はしばしばマルチモーダルであり、自然言語、顔のジェスチャー、音響行動の混合から構成されています。しかし、このようなマルチモーダルな人間言語時系列データをモデル化する際には、2つの主要な課題が存在します:1)各モーダルからのシーケンスの可変サンプリングレートにより生じるデータの非対応性;2)モーダル間で要素間に存在する長距離依存関係。本論文では、これらの問題を明示的なデータアライメントなしで一貫して解決するために、マルチモーダルトランスフォーマー(Multimodal Transformer, MulT)を提案します。当モデルの中心にあるのは方向性のあるペアワイズクロスモーダル注意機構で、これは異なる時間ステップにわたるマルチモーダルシーケンス間の相互作用に注目し、一方のモーダルから他方へのストリームを潜在的に適応させます。アライメント済みおよび未アライメントのマルチモーダル時系列データに対する包括的な実験結果は、当モデルが最先端手法を大幅に上回ることを示しています。さらに経験的分析は、MulTにおける提案されたクロスモーダル注意機構が相関するクロスモーダル信号を捉えることができることを示唆しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています