
要約
近年のオープンドメイン会話エージェントに関する研究では、事前学習データ量およびモデルサイズの大幅なスケーリングにより、モデルの会話的魅力および人間らしさに関する指標が顕著に向上することが示されている(Adiwardana他, 2020; Roller他, 2020)。しかし、人間と同等の能力を持つエージェントを構築するためには、テキスト処理にとどまらず、視覚情報の理解およびその認識内容に関するコミュニケーション能力の獲得も不可欠である。特に重要な課題の一つは、画像を認識し、その内容について対話できる能力の実現である。人間とのマルチモーダル対話に効果的に関与できるようにするという目的の下、最先端のオープンドメイン会話エージェントの構成要素と、最先端の視覚モデルの構成要素を統合する手法を検討した。異なる画像融合方式およびドメイン適応型の事前学習・微調整戦略を組み合わせて検証し、最良のモデルが、マルチモーダル対話において既存の強力なモデルを上回る性能を発揮するとともに、テキストベースの会話においても、先行するテキスト専用モデルであるBlenderBot(Roller他, 2020)と同等の性能を維持できることを示した。さらに、最終モデルに安全性を確保するための機構を導入・検証した結果、会話的魅力に関する指標においてモデルの性能が低下することなく、安全な対話が可能であることを確認した。