
要約
従来の物体検出モデルは大量の学習データを必要とします。これに対して、人間は物体の意味論的な説明を知っているだけで、それまで見たことのない物体を認識することができます。このような人間の行動を模倣するため、ゼロショット物体検出は、視覚情報ではなく意味論的情報のみを使用して「未見」の物体インスタンスを認識および局所化することを目指しています。まず、モデルは既知の物体について視覚領域と意味論的領域との関係性を学習し、その後、獲得した知識を全く未知の物体に転移します。この設定では、未見の物体が意味論的属性のみで識別できるように、視覚概念と意味論的概念との間での正確な対応が必要となります。本稿では、「極性損失(Polarity loss)」と呼ばれる新しい損失関数を提案します。この損失関数は、視覚-意味論的対応を改善し、より優れたゼロショット物体検出を実現するために設計されています。一方では、「意味語彙(Semantic vocabulary)」という関連概念群上で計量学習を行い、ノイジーな意味論的埋め込みを洗練することで、視覚領域と意味論的領域との間に更好的な協調性を確立します。他方では、正例と負例予測間のギャップを明示的に最大化することで、既知の物体、未知の物体、および背景オブジェクト間でのより良い区別を行うことを目指します。当手法は認知科学における体現理論に着想を得ています。これらの理論によれば、人間の意味理解は過去の経験(既知の物体)、関連する言語的概念(単語語彙)、および視覚認識(既知/未知の物体画像)に基づいていると主張されています。MS-COCO および Pascal VOC データセットにおいて広範な評価を行った結果、当手法は最新技術に対して有意な改善を示しました。