7日前
状況に応じたマルチモーダルコンテキストの埋め込み学習による会話エージェントの構築
{Kee-Eung Kim, Kangwook Lee, Haebin Shin, Youngjune Lee, Jinhyeon Kim, Yoonhyung Kim, Ran Han, Minho Park, Yunseon Choi, Oh Joon Kwon, Haeju Lee}

要約
状況に即したインタラクティブなマルチモーダル会話(SIMMC)2.0は、オブジェクトの視覚的外観とユーザーの発話といった複雑なマルチモーダル入力を処理できる仮想ショッピングアシスタントの構築を目指している。本タスクは、マルチモーダルな曖昧性解消(MM-Disamb)、マルチモーダルな共参照解決(MM-Coref)、マルチモーダルな対話状態追跡(MM-DST)、および応答の検索と生成の4つのサブタスクから構成される。多くのタスク指向型会話システムは各サブタスクを個別に処理するが、本研究では視覚情報も統合する一貫したマルチモーダルエンコーダ・デコーダを共同学習させ、すべての4つのサブタスクを一度に処理する効率的なアプローチを提案する。この手法は、第10回対話システム技術チャレンジ(DSTC10)において、単一の統合モデルでMM-Corefおよび応答検索のサブタスクで優勝し、残りのサブタスクにおいても準優勝を獲得した。これにより、マルチモーダルなタスク指向型会話システムという新規タスクに対する高い基準が確立された。