
要約
本論文は、ワンショットオブジェクトカウンティングという困難なタスクに取り組むことを目的としている。新規かつこれまでに見られなかったカテゴリのオブジェクトを含む画像に対して、唯一のサポートボクシング例(1つの境界ボックス例)のみを用いて、目的のカテゴリに属するすべてのインスタンスを正確に数えることがこのタスクの目標である。これを実現するため、我々は「Look At One instance(LaoNet)」と名付けた新しいカウンティングモデルを提案する。まず、自己注意(Self-Attention)と相関注意(Correlative-Attention)モジュールを組み合わせた特徴相関モジュールを導入することで、オブジェクト内における内部関係およびオブジェクト間の相互関係を同時に学習可能とする。これにより、異なるインスタンス間における回転やサイズの不一致に対して高いロバスト性を実現する。次に、スケール集約(Scale Aggregation)機構を設計し、異なるスケール情報を持つ特徴を効果的に抽出できるようにする。既存の少サンプルカウンティング手法と比較して、LaoNetは最先端の性能を達成するとともに、高速な収束性を有している。コードは近日中に公開予定である。