ビジュアルダイアログ

ビジュアルダイアログというタスクを紹介します。このタスクでは、AIエージェントが人間と自然な会話言語で視覚的なコンテンツについて意味のある対話を持つことが求められます。具体的には、画像、対話履歴、および画像に関する質問が与えられた場合、エージェントは質問を画像に根ざし、履歴から文脈を推論し、質問に正確に答える必要があります。ビジュアルダイアログは特定の下流タスクから十分に分離されているため、機械知能の一般的なテストとして機能できます。同時に、視覚に十分に根ざしているため、個々の応答やベンチマークの進捗を客観的に評価することができます。私たちは大規模なビジュアルダイアログデータセット(VisDial)を作成するために新しい二人チャットデータ収集プロトコルを開発しました。VisDial v0.9は公開されており、COCOから約12万枚の画像に対して1つの対話と10組の質問回答ペアが含まれており、合計で約120万組の対話質問回答ペアがあります。また、ビジュアルダイアログ用の3つのエンコーダー(Late Fusion, Hierarchical Recurrent Encoder, Memory Network)と2つのデコーダー(生成型と識別型)を持つニューラルエンコーダーデコーダーモデル群を導入します。これらのモデルは複数の洗練されたベースラインを上回る性能を示しています。私たちはビジュアルダイアログにおけるリトリーバルベースの評価プロトコルを提案しており、AIエージェントに対して候補となる答えの一覧を並べ替えさせ、人間の反応に対する平均逆順位などの指標で評価を行います。さらに、ヒューマンスタディを通じてビジュアルダイアログタスクでの機械と人間のパフォーマンス差を定量的に測定しています。これら全てを組み合わせて初めて「ビジュアルチャットボット」を実現しました!私たちのデータセット、コード、学習済みモデルおよびビジュアルチャットボットはhttps://visualdialog.org で利用可能です。