
要約
本論文では、画像に基づく質問を積極的に出し、その後その質問に答えることで画像の内容を継続的に発見する問題を取り扱います。主要な構成要素には、ビジュアル・クエスチョン・ジェネレーション(VQG)モジュールとビジュアル・クエスチョン・アンサリング(VQA)モジュールが含まれます。これらのモジュールでは、リカレントニューラルネットワーク(RNN)と畳み込みニューラルネットワーク(CNN)が使用されています。画像、質問およびそれに対する答えを含むデータセットが与えられた場合、両モジュールは同時に学習されますが、VQGは画像を入力として使い対応する質問を出力し、VQAは画像と質問を入力として使い対応する答えを出力します。私たちはアマゾン・メカニカルターツクを使用して自己対話プロセスの主観的な評価を行い、提案手法の有効性が示されました。