
要約
本論文では、画像中の物体数え問題に取り組んでいます。既存のアプローチは各物体に対して点注釈を持つ大量の訓練データに依存しており、データ収集が労力と時間のかかる作業となっています。この課題を克服するために、我々はセグメンテーション問題として数えタスクを扱う訓練不要の物体カウンターを提案します。当アプローチは、高品質なマスクとゼロショットセグメンテーション能力で知られるSegment Anything Model (SAM) を活用します。しかし、SAMの通常のマスク生成方法にはクラス固有の情報が欠けており、数え精度が低下するという制限があります。この制限を克服するために、我々はセグメンテーション過程に3種類の事前情報を組み込む事前情報誘導型マスク生成方法を導入します。これにより効率性と精度が向上します。さらに、テキストを通じて指定された物体を数える課題に対処するために、参照物体選択と事前情報誘導型マスク生成を組み合わせた2段階アプローチを提案します。標準的なデータセットにおける広範な実験結果は、当アプローチが学習ベースの手法と比較して競争力のある性能を持つことを示しています。本論文では、大量のデータ収集や数え特有の訓練を必要とせずに様々な状況での物体数え問題に対する有望な解決策を提示しています。コードは \url{https://github.com/shizenglin/training-free-object-counter} から入手可能です。