11일 전

Sparse R-CNN: 학습 가능한 제안을 통한 엔드투엔드 객체 탐지

Peize Sun, Rufeng Zhang, Yi Jiang, Tao Kong, Chenfeng Xu, Wei Zhan, Masayoshi Tomizuka, Lei Li, Zehuan Yuan, Changhu Wang, Ping Luo
Sparse R-CNN: 학습 가능한 제안을 통한 엔드투엔드 객체 탐지
초록

우리는 이미지 내 객체 탐지를 위한 순수하게 희소(sparsity)한 방법인 Sparse R-CNN을 제안한다. 기존의 객체 탐지 연구들은 이미지 특징 맵의 각 그리드에 사전 정의된 $k$개의 앵커 박스(anchor boxes)와 같은 밀집(dense) 객체 후보에 크게 의존하고 있다. 그러나 본 연구에서 제안하는 방법은 고정된 수의 학습 가능한 객체 제안(proposals)으로 구성된 희소한 집합(총 길이 $N$)을 객체 인식 헤드에 제공하여 분류 및 위치 예측을 수행한다. 기존의 $HWk$($수만 개에 달하는 수준$)의 수작업으로 설계된 객체 후보를 제거하고, 대신 $N$($예: 100$)개의 학습 가능한 제안으로 대체함으로써, Sparse R-CNN은 객체 후보 설계와 다대일 레이블 할당(label assignment)과 관련된 모든 노력에서 완전히 벗어난다. 더 중요한 점은, 최종 예측이 비최대 억제(non-maximum suppression, NMS) 후처리 절차 없이 직접 출력된다는 것이다. Sparse R-CNN은 도전적인 COCO 데이터셋에서 기존의 잘 정립된 탐지기 기준 모델들과 비교하여 정확도, 실행 시간, 학습 수렴 성능 측면에서 동등한 성능을 보였다. 예를 들어, 표준 $3\times$ 학습 스케줄에서 45.0 AP를 달성하며, ResNet-50 FPN 모델을 사용할 경우 22 fps의 속도로 실행 가능하다. 본 연구가 객체 탐지기에서 밀집된 사전 지식(prior)의 전통적 접근 방식에 대한 재고를 촉진하기를 기대한다. 코드는 다음 링크에서 제공된다: https://github.com/PeizeSun/SparseR-CNN.

Sparse R-CNN: 학습 가능한 제안을 통한 엔드투엔드 객체 탐지 | 최신 연구 논문 | HyperAI초신경