
要約
既存の視覚的なカウントに関する研究は、主に特定のカテゴリ、例えば人間、動物、細胞などに焦点を当てています。本論文では、すべてのものを数えることに興味を持っています。つまり、そのカテゴリからわずかなアノテーション付きインスタンスのみが与えられた場合でも、任意のカテゴリからのオブジェクトを数えることです。この目的のために、我々はカウントを少ショット回帰タスクとして定式化します。このタスクに対処するために、我々は新しい手法を提案します。この手法はクエリ画像とそのクエリ画像からのいくつかのサンプルオブジェクトを受け取り、クエリ画像内のすべての対象オブジェクトの存在密度マップを予測します。また、テスト時に新たな視覚的カテゴリにネットワークを適応させるための新しい適応戦略も提案しています。この戦略は新たなカテゴリからのわずかなサンプルオブジェクトのみを使用してネットワークを適応させます。さらに、6000枚以上の画像を含む147のオブジェクトカテゴリで構成されるデータセットも紹介します。これらの画像はドットとバウンディングボックスという2種類のアノテーションが付いており、少ショットカウントモデルを開発するのに適しています。本データセットでの実験結果は、我々の手法がいくつかの最先端の物体検出器や少ショットカウントアプローチよりも優れていることを示しています。我々のコードとデータセットは https://github.com/cvlab-stonybrook/LearningToCountEverything で入手できます。