会話エージェントにおけるタスク指向型対話とオープンドメイン対話の統合

インテリジェントな対話システムの構築という目標は、これまで主に二つのパラダイムに分かれて追求されてきた。一つは目的志向型対話(Task-Oriented Dialogue: TOD)システムであり、特定の目的を達成する機能を果たすものである。もう一つはオープンドメイン対話(Open-Domain Dialogue: ODD)システムであり、目的のない雑談に焦点を当てるものである。実際の会話において、これらの二つの対話モードは、友好的な人間アシスタントが自然に行うように、同じ会話の中でシームレスに融合される可能性がある。このような能力は、会話エージェントにとって望ましいものであり、統合されることでよりアクセスしやすく、実用性の高いものとなる。本論文では、マルチターン対話においてTODとODDを融合するという課題に取り組む。人気のあるTODデータセットMultiWOZを基盤として、既存のTODの発話文を再構成し、新たにODDの発話文を追加することで、新たなデータセットFusedChatを構築した。このプロセスにより、両方の対話モードが混在する会話セッションが構成され、モード間の文脈依存性(inter-mode contextual dependency)が特徴となる。すなわち、TODとODDの発話は互いに依存し合う関係にあり、共参照や省略といった豊かな依存構造が含まれる。本データセットは、6万件の新規人間作成ODD発話と5千件の再構成TOD発話から構成されており、対話モデルがモード間の会話を行う能力を評価するためのベンチマークを提供する。このタスクはより困難であり、モデルは適切な対話モードを判断し、モード間の文脈に基づいて応答を生成しなければならない。しかし、このようなモデルは人間レベルの会話能力をより正確に模倣することができる。本研究では、分類ベースの二段階モデルと、二つのモードを統合した「ワンモデル」型の統合モデルを含むベースラインモデルを評価した。FusedChatとベースラインモデルを公開し、今後のモード間対話システムに関する研究を促進する。詳細は以下よりご確認ください:https://github.com/tomyoung903/FusedChat。