
要約
人間の会話は微妙なニュアンスを持つ複雑なメカニズムです。したがって、人工知能エージェントが流暢に会話に参加できるように開発することは、大変野心的な目標と言えます。この目標の達成にはまだ遠い道のりがありますが、最近の視覚質問応答、画像キャプショニング、および視覚質問生成における進歩は、対話システムがそう遠くない未来に実現可能であることを示しています。この目的のために、最近新しいデータセットが導入され、特に質問応答において有望な結果が示されました。本論文では、答えを予測するだけでなく質問も予測できる単純な対称的識別基線モデルを提示します。この手法は、記憶ネットワークに基づく方法を含む最先端技術と同等の性能を発揮することを示しています。さらに、視覚対話データセットにおいて初めてシステムが質問を行う性能を評価し、識別的質問生成と質問応答から視覚対話を生成する方法を示します。