
要約
状況に即したインタラクティブなマルチモーダル会話(SIMMC)2.0は、オブジェクトの視覚的外観とユーザーの発話といった複雑なマルチモーダル入力を処理できる仮想ショッピングアシスタントの構築を目指している。本課題は、マルチモーダルの曖昧さ解消(MM-Disamb)、マルチモーダル共参照解決(MM-Coref)、マルチモーダル対話状態追跡(MM-DST)、および応答の検索と生成という4つのサブタスクから構成される。多くのタスク指向型対話システムでは各サブタスクを個別に処理するが、本研究では視覚情報を統合した一貫したマルチモーダルエンコーダ・デコーダモデルを共同学習により構築し、効率性を高めるためにこれら4つのタスクを一度に処理するアプローチを提案する。このアプローチは、第10回対話システム技術チャレンジ(DSTC10)において、単一の統合モデルを用いてMM-Corefおよび応答検索タスクで優勝し、残りのタスクでは準優勝を獲得し、マルチモーダルタスク指向型対話システムという新規課題のための高い基準を確立した。