意味論誘導対照ネットワークによるゼロショット物体検出

ゼロショット物体検出(ZSD)は、従来の検出モデルを未見のカテゴリの物体検出に拡張するタスクとして、コンピュータビジョン分野において新しい課題として注目を集めています。既存の大多数のアプローチは、厳密なマッピング転送戦略を用いてZSDタスクに取り組んでいますが、これにより最適でないZSD結果が生じることがあります。その理由は以下の通りです:1) これらのモデルの学習過程では未見クラス情報が無視されるため、既知のカテゴリに対して偏りやすくなります;2) 元々の視覚特徴空間が十分に構造化されておらず、識別情報が不足しています。これらの問題に対処するために、私たちは新たなセマンティクスガイデッドコントラスティブネットワークであるContrastZSDを開発しました。これは、ゼロショット検出領域にコントラスティブ学習メカニズムを初めて導入した検出フレームワークです。特に、ContrastZSDは地域-カテゴリ対と地域-地域対それぞれについてコントラストを行う2つのセマンティクスガイデッドコントラスティブ学習サブネットを組み込んでいます。ペアワイズコントラスティブタスクは、真実値ラベルと事前に定義されたクラス類似度分布から派生した追加の監督信号を利用します。これらの明確なセマンティック監督のもとで、モデルは未見カテゴリに関するより多くの知識を学び、既知概念への偏りを避けることができます。同時に、視覚特徴のデータ構造を最適化し、より優れた視覚-セマンティック整合性のために識別情報を増やします。PASCAL VOCおよびMS COCOという2つの人気ベンチマーク上で広範な実験が行われました。その結果、私たちの手法はZSDおよび一般化ZSDタスクにおいて以前の最先端手法を上回ることが示されました。