17日前

混雑したシーンにおけるプログレッシブなエンドツーエンドオブジェクト検出

Anlin Zheng, Yuang Zhang, Xiangyu Zhang, Xiaojuan Qi, Jian Sun
混雑したシーンにおけるプログレッシブなエンドツーエンドオブジェクト検出
要約

本稿では、群衆検出を対象とした新たなクエリベース検出フレームワークを提案する。従来のクエリベース検出器には、2つの課題が存在する。第一に、混雑したシーンでは単一の物体に対して複数の予測が生成されがちなこと。第二に、デコード段階の深さが増すに従って性能が飽和してしまうことである。本研究では、一対一のラベル割り当てルールの特性を活かし、上記の課題を解決するための段階的予測手法を提案する。具体的には、真陽性予測を生成しやすいと予想されるクエリを最初に選択し、その後、それらの accepted な予測に基づいて残りのノイズを含むクエリを改善する。実験の結果、本手法はクエリベース検出器の混雑シーンにおける性能を顕著に向上させることを示した。本手法を導入した Sparse RCNN は、挑戦的な CrowdHuman データセット \cite{shao2018crowdhuman} において、92.0\% $\text{AP}$、41.4\% $\text{MR}^{-2}$、83.2\% $\text{JI}$ を達成し、混雑状況に対応することに特化したボックスベース手法 MIP \cite{chu2020detection} を上回った。さらに、本手法は混雑度に強く、CityPersons \cite{zhang2017citypersons} や COCO \cite{lin2014microsoft} といった中程度およびやや混雑したデータセットにおいても一貫した性能向上を示した。コードは公開予定であり、https://github.com/megvii-model/Iter-E2EDET にて提供される予定である。

混雑したシーンにおけるプログレッシブなエンドツーエンドオブジェクト検出 | 最新論文 | HyperAI超神経