
要約
ゼロショット検出(ZSD)は、未見の物体を同時に局所化および認識することを目指す大規模物体検出において重要な役割を果たします。ZSDにはまだいくつかの課題が残っており、背景と未見の物体間の曖昧性を低減し、視覚的概念と意味的概念の整合性を改善することが求められています。本研究では、ZSDの性能向上のために新しいフレームワークである「バックグラウンド学習可能なカスケード(BLC)」を提案します。BLCの主な貢献点は以下の通りです:(i) 未見物体検出における視覚的概念と意味的概念の整合性を段階的に改良するため、「カスケード意味論的R-CNN」という多段階カスケード構造を提案します;(ii) カスケード意味論的R-CNNの各段階間に直接追加する「意味情報フロー構造」を開発し、さらに意味特徴学習を改善します;(iii) 背景クラスに適切な単語ベクトルを学習する「バックグラウンド学習可能な領域提案ネットワーク(BLRPN)」を提案し、この学習済みベクトルをカスケード意味論的R-CNNで使用することで、「バックグラウンド学習可能」な設計となり、背景と未見クラス間の混乱が軽減されます。我々の広範な実験結果は、BLCがMS-COCOデータセットにおいて最先端手法よりも大幅に性能向上していることを示しています。