
물체 인식에서 양성과 음성을 정의하기 위해 교차 과 유니온(IoU) 임계값이 필요합니다. IoU 임계값이 낮게 설정된, 예를 들어 0.5로 훈련된 물체 인식기는 일반적으로 노이즈가 많은 검출 결과를 생성합니다. 그러나 IoU 임계값을 높이면 검출 성능이 저하되는 경향이 있습니다. 이 문제의 두 주요 원인은 다음과 같습니다: 1) 양성 샘플이 지수적으로 감소하여 훈련 중 과적합(overfitting)이 발생하고, 2) 검출기의 최적화된 IoU와 입력 가설의 IoU 간에 추론 시 불일치가 발생합니다.이러한 문제들을 해결하기 위해 다단계 물체 인식 아키텍처인 캐스케이드 R-CNN(Cascade R-CNN)이 제안되었습니다. 이 아키텍처는 점점 더 높아지는 IoU 임계값으로 훈련된 일련의 검출기로 구성되며, 가까운 거짓 양성(false positives)에 대해 순차적으로 더욱 선택적이도록 설계되었습니다. 검출기는 단계별로 훈련되며, 한 단계의 검출기 출력이 다음 단계의 더 높은 품질 검출기를 위한 좋은 분포라는 관찰을 활용합니다. 점진적으로 개선된 가설들의 재샘플링(resampling)은 모든 검출기가 동등한 크기의 양성 예제 집합을 가지도록 보장하여 과적합 문제를 줄입니다.추론 시에도 같은 캐스케이드 프로세스가 적용되어 각 단계의 검출기 품질과 가설 간에 더욱 밀접한 일치를 가능하게 합니다. 실험 결과, 캐스ケ이드 R-CNN은 도전적인 COCO 데이터셋에서 모든 단일 모델 물체 인식기를 능가하는 것으로 나타났습니다. 또한 실험에서는 캐스케이드 R-CNN이 다양한 검출기 아키텍처에 널리 적용될 수 있으며, 기준 모델의 강도와 무관하게 일관된 성능 향상을 달성한다는 것이 확인되었습니다. 코드는 https://github.com/zhaoweicai/cascade-rcnn 에서 제공될 예정입니다.