VQAにおけるVの重要性:画像理解の役割を高める

視覚と言語の交差点における問題は、挑戦的な研究課題としてだけでなく、豊富な応用を可能にする点でも重要な意味を持っています。しかし、私たちの世界に内在する構造や言語のバイアスは、視覚モダリティよりも学習にとってより単純な信号となりがちであり、その結果、視覚情報を無視するモデルが生まれ、それらのモデルの能力が過大評価される傾向があります。本稿では、これらの言語的な先入観をVisual Question Answering(VQA)タスクにおいて打ち破ることを提案し、「視覚」(VQAにおけるV)が重要であることを強調します。具体的には、人気のあるVQAデータセットを補完画像を集めてバランスを取ります。これにより、私たちのバランス取られたデータセットでは、各質問が単一の画像だけでなく、同じ質問に対して異なる答えとなる類似した2つの画像ペアに関連付けられます。当該データセットは元のVQAデータセットよりもバランスが良く、約2倍の数の画像-質問ペアを含んでいます。当該完全なバランス取られたデータセットはwww.visualqa.orgで公開されており、Visual Question Answering Dataset and Challenge(VQA v2.0)の第2版の一環として提供されています。さらに、当該バランス取られたデータセット上で数々の最先端VQAモデルをベンチマークしました。すべてのモデルは当該バランス取られたデータセットでの性能が著しく低下しており、これらのモデルが言語的な先入観を利用することを学習していることが示唆されます。この知見は実務者間で定性的に感じられていた事象に対する初めての具体的な経験的証拠となります。最後に、補完画像を特定するための当該データ収集プロトコルにより、新たな解釈可能なモデルを開発することが可能になりました。このモデルは与えられた(画像, 質問)ペアに対する答えだけでなく、反例に基づく説明も提供します。つまり、元の画像に類似しているが同じ質問に対して異なる答えになると推定される画像を特定します。これはユーザーに対する機械への信頼性向上に寄与することが期待されます。