2달 전
CNN에서의 객체 검출을 위한 반복적인 스케일 근사
Yu Liu; Hongyang Li; Junjie Yan; Fangyin Wei; Xiaogang Wang; Xiaoou Tang

초록
컨벌루션 신경망(CNN)은 본질적으로 대규모 변동을 처리하는 메커니즘이 부족하기 때문에, 다중 스케일 객체 검출을 위해 특성 맵을 여러 번 계산해야 하는데, 이는 실제 사용에서 계산 비용의 병목 현상을 초래합니다. 이를 해결하기 위해, 우리는 재귀적 스케일 근사(RSA)를 설계하여 특성 맵을 한 번만 계산하도록 하였으며, 이 맵을 통해 다른 수준의 나머지 맵들을 근사할 수 있습니다. RSA의 핵심은 재귀적인 롤아웃 메커니즘입니다: 특정 스케일에서 초기 맵이 주어지면, 입력 크기의 절반 크기인 더 작은 스케일에서 예측을 생성합니다. 효율성과 정확성을 더욱 높이기 위해, 우리는 (a): 이미지 내 잠재적인 스케일을 전역적으로 예측할 수 있는 스케일 예측 네트워크를 설계하였습니다. 모든 피라미드 수준에서 맵을 계산할 필요가 없기 때문입니다. (b): 회귀된 랜드마크들의 위치를 추적하고 각 랜드마크에 대한 신뢰도 점수를 생성하는 랜드마크 재추적 네트워크(LRN)를 제안하였습니다; LRN은 RSA에서 누적되는 오류로 인해 발생하는 거짓 양성을 효과적으로 완화시킬 수 있습니다. 전체 시스템은 통합된 CNN 프레임워크에서 엔드투엔드로 훈련될 수 있습니다. 실험 결과, 제안한 알고리즘이 얼굴 검출 벤치마크에서 최신 방법론보다 우수하며, 일반적인 제안 생성에서도 유사한 성능을 보임을 입증하였습니다. RSA의 소스 코드는 github.com/sciencefans/RSA-for-object-detection에서 제공됩니다.