多モーダルトランスフォーマーネットワークを用いたエンドツーエンドのビデオ基盤対話システム

ビデオを基盤とする対話システム(Video-Grounded Dialogue Systems: VGDS)の開発は、与えられたビデオの視覚的および音響的な側面に基づいて対話を行うものであり、従来の画像やテキストを基盤とする対話システムよりも著しく困難です。その理由は、(1) ビデオの特徴空間が複数の画像フレームにまたがっているため、意味情報を取得するのが難しく、(2) 対話エージェントが異なるモダリティ(音声、ビデオ、キャプションなど)から情報を知覚し処理しなければならないため、包括的理解を得るのが難しいからです。既存の大半の研究はRNN(Recurrent Neural Networks)とシーケンス・ツー・シーケンス構造に基づいており、これらは複雑な長期依存関係(ビデオのようなもの)を捉えるのにあまり効果的ではありません。この問題を解決するために、我々はマルチモーダルトランスフォーマーネットワーク(Multimodal Transformer Networks: MTN)を提案し、ビデオを符号化し異なるモダリティからの情報を組み込むことを目指します。さらに、自己符号化器を通じたクエリ認識型注意機構(query-aware attention)を提案し、非テキストモダリティからクエリ認識型特徴量を抽出します。我々はトークンレベルでのデコーディングを模擬する学習手順を開発し、推論時に生成される応答の品質向上を目指しました。本研究では、対話システム技術チャレンジ7(Dialogue System Technology Challenge 7: DSTC7)で最先端の性能を達成しています。また、モデルは別のマルチモーダル視覚基盤対話タスクにも一般化可能であり、有望な性能を得ています。我々はPyTorchを使用してモデルを実装し、コードはhttps://github.com/henryhungle/MTNで公開されています。