2ヶ月前

画像キャプショニングと視覚的質問応答におけるボトムアップおよびトップダウンの注意

Peter Anderson; Xiaodong He; Chris Buehler; Damien Teney; Mark Johnson; Stephen Gould; Lei Zhang
画像キャプショニングと視覚的質問応答におけるボトムアップおよびトップダウンの注意
要約

上位から下位への視覚的注意メカニズムは、画像のキャプション生成と視覚的な質問応答(VQA)において広く利用されており、詳細な画像理解を可能にするための細かい分析や複数段階の推論を実現しています。本研究では、物体やその他の注目すべき画像領域のレベルで注意を計算できるようにする、底辺から上位へと上位から下位への注意メカニズムを組み合わせた新しいアプローチを提案します。これは、注意が考慮される自然な基盤です。当方針では、底辺からのメカニズム(Faster R-CNNに基づく)が画像領域を提案し、それぞれに関連する特徴ベクトルを持ちます。一方、上位からのメカニズムがこれらの特徴の重み付けを行います。このアプローチを画像のキャプション生成に適用した結果、MSCOCOテストサーバーでの評価で新たな最先端の成果を達成し、CIDEr / SPICE / BLEU-4スコアはそれぞれ117.9、21.5、36.9となりました。本手法の汎用性を示すために、同じアプローチをVQAに適用したところ、2017年のVQAチャレンジで第1位を獲得しました。