
要約
物体検出は、コンピュータビジョンにおける最も困難な問題の一つとされています。これは、画像内の物体のクラスと位置を正しく予測する必要があるためです。本研究では、より困難なシナリオ、すなわちゼロショット物体検出(Zero-Shot Object Detection: ZSD)を定義します。このシナリオでは、一部の目標物体クラスに対して視覚的な訓練データが利用できない状況を考えます。我々は、このZSD問題に対処する新しい手法を提案し、埋め込みの凸結合を使用して検出フレームワークと組み合わせることで解決を目指します。ZSD手法の評価のために、Fashion-MNIST画像から構築された単純なデータセットとPascal VOC検出チャレンジ用のカスタムゼロショット分割を提案します。実験結果は、我々の手法がZSDに対して有望な結果をもたらすことを示唆しています。