2ヶ月前

Crowd-SAM: 混雑シーンでの物体検出用のスマートアノテーターとしてのSAM

Cai, Zhi ; Gao, Yingjie ; Zheng, Yaoyan ; Zhou, Nan ; Huang, Di
Crowd-SAM: 混雑シーンでの物体検出用のスマートアノテーターとしてのSAM
要約

コンピュータビジョンにおいて、物体検出は多くの場面で応用される重要なタスクです。しかし、特に混雑したシーンでは広範なラベルの取得が困難となることがあります。最近、Segment Anything Model (SAM) が強力なゼロショットセグメンターとして提案され、インスタンスセグメンテーションタスクに新しいアプローチを提供しています。しかし、SAMやその変種は混雑したシーンや被塞された物体を処理する際に精度と効率が低下することがあります。本論文では、学習可能なパラメータの数を最小限に抑え、ラベル付き画像も少量で済むように設計されたSAMベースのフレームワークであるCrowd-SAMを紹介します。効率的なプロンプトサンプラ(Efficient Prompt Sampler: EPS)と部分全体識別ネットワーク(Part-Whole Discrimination Network: PWD-Net)を導入することで、混雑したシーンでのマスク選択と精度を向上させています。Crowd-SAMはその単純さにもかかわらず、CrowdHumanやCityPersonsなどの複数のベンチマークで最先端(State-of-the-Art: SOTA)の完全教師あり物体検出方法に匹敵する性能を発揮します。コードは以下のURLから入手可能です。https://github.com/FelixCaae/CrowdSAM

Crowd-SAM: 混雑シーンでの物体検出用のスマートアノテーターとしてのSAM | 最新論文 | HyperAI超神経