2달 전

일반화된 포칼 로스 V2: 밀집 객체 검출을 위한 신뢰성 있는 위치 추정 학습

Li, Xiang ; Wang, Wenhai ; Hu, Xiaolin ; Li, Jun ; Tang, Jinhui ; Yang, Jian
일반화된 포칼 로스 V2: 밀집 객체 검출을 위한 신뢰성 있는 위치 추정 학습
초록

로케이리제이션 퀄리티 추정(LQE)은 정확한 순위 점수를 제공하여 비최대 억제 처리에 도움을 주고 탐지 성능을 개선할 수 있기 때문에 최근 밀도 객체 탐지기의 발전에서 중요한 역할을 하고 있습니다. 기존 방법 대부분은 객체 분류나 바운딩 박스 회귀와 공유되는 일반적인 컨볼루셔널 특성을 통해 LQE 점수를 예측합니다. 본 논문에서는 완전히 새로운 관점으로 LQE를 수행하는 방법을 탐구합니다. 이 방법은 바운딩 박스의 네 가지 매개변수의 학습된 분포를 기반으로 합니다. 이러한 바운딩 박스 분포는 GFLV1에서 "일반 분포(General Distribution)"로 소개되었으며, 예측된 바운딩 박스의 불확실성을 잘 설명합니다. 이러한 특성 덕분에 바운딩 박스의 분포 통계가 실제 로케이션 퀄리티와 높게 상관관계를 가집니다. 구체적으로, 날카로운 피크를 가진 바운딩 박스 분포는 보통 높은 로케이션 퀄리티와 대응되며, 그 반대의 경우도 마찬가지입니다. 분포 통계와 실제 로케이션 퀄리티 사이의 긴밀한 상관관계를 활용하여, 우리는 GFLV1을 기반으로 신뢰성 있는 LQE를 위한 상당히 경량화된 분포 안내형 퀄리티 예측기(DGQP)를 개발하였습니다. 이를 통해 GFLV2가 생성되었습니다. 최선의 지식으로 판단할 때, 이는 객체 탐지에서 높은 관련성을 가진 통계적 표현을 사용하여 LQE를 촉진하는 첫 시도입니다. 광범위한 실험 결과는 우리의 방법론이 효과적임을 입증합니다. 특히, GFLV2 (ResNet-101)는 COCO {\tt test-dev}에서 14.6 FPS에서 46.2 AP를 달성하며, 이전 최신 기술인 ATSS 베이스라인 (14.6 FPS에서 43.6 AP)보다 절대적으로 2.6 AP 우위를 보였습니다. 또한, 학습과 추론 과정 모두에서 효율성이 저하되지 않았습니다. 코드는 https://github.com/implus/GFocalV2 에서 제공될 예정입니다.