
要約
少数回サンプル物体検出(Few-shot object detection)は、少数のラベルで新しい物体を検出することに焦点を当てた、近年注目されている課題である。最近の研究では、事前学習モデルの適応や損失関数の改良が性能向上に寄与することが示されている。本論文では、低データ環境下において、対照的言語-画像事前学習(Contrastive Language-Image Pre-training, CLIP)の能力とハードネガティブ分類損失を活用する手法を検討する。具体的には、Faster R-CNNを拡張するため、CLIPを用いたキャリブレーションモジュール(CM-CLIP)と背景ネガティブ再スケーリング損失(Background Negative Re-scale Loss, BNRL)を導入した、少数回サンプル物体検出用の再スコアリング手法(Re-scoring using Image-language Similarity for Few-shot object detection, RISF)を提案する。前者は、ゼロショット分類を実行可能なCLIPを活用し、画像とクラスの類似度に基づいて検出器の分類スコアを再評価するものであり、後者は、一般化された少数回サンプル物体検出データセット上で、誤検出された背景(偽の背景)および混同しやすいカテゴリに対するペナルティを考慮した修正された分類損失関数である。MS-COCOおよびPASCAL VOCにおける広範な実験結果から、提案手法RISFが最先端手法を著しく上回ることを示した。コードは公開予定である。