17日前

超微細粒度の意味ラベルを用いたボックス提案と特徴化の分離により、画像キャプション生成および視覚的質問応答が向上する

Soravit Changpinyo, Bo Pang, Piyush Sharma, Radu Soricut
超微細粒度の意味ラベルを用いたボックス提案と特徴化の分離により、画像キャプション生成および視覚的質問応答が向上する
要約

オブジェクト検出は、画像キャプション生成や視覚的質問応答(VQA)などの視覚と言語の統合タスクにおいて、重要な役割を果たしている。しかし、Faster R-CNNのような代表的なモデルは、バウンディングボックスとその対応する意味的ラベルの両方について高コストな真値(ground-truth)のアノテーションを必要とするため、転移学習の基本的なタスクとしての適用が困難である。本論文では、下流タスクにおけるボックス提案(box proposal)と特徴抽出(featurization)の分離がもたらす影響を検討する。重要な洞察として、このアプローチにより従来のオブジェクト検出ベンチマークでは利用できなかった大量のラベル付きアノテーションを活用できることが示される。実証的に、この手法が効果的な転移学習を実現し、公開ベンチマーク上での画像キャプション生成および視覚的質問応答モデルの性能向上につながることを示した。