
물체 검출에서 교집합 대 합집합(IoU, Intersection over Union) 임계값은 주로 양성/음성을 정의하는 데 사용됩니다. 검출기의 훈련에 사용되는 임계값은 그 검출기의 \textit{품질}을 결정합니다. 일반적으로 사용되는 0.5의 임계값은 노이즈가 많은(저품질) 검출을 초래하지만, 더 큰 임계값에서는 검출 성능이 자주 저하됩니다. 이 고품질 검출의 역설은 두 가지 원인으로 설명할 수 있습니다: 1) 큰 임계값으로 인해 양성 샘플이 사라지면서 발생하는 과적합, 그리고 2) 추론 시점에서 검출기와 테스트 가설 사이의 품질 불일치입니다. 이러한 문제를 해결하기 위해, IoU 임계값을 점진적으로 증가시키며 훈련된 일련의 검출기로 구성된 다단계 물체 검출 아키텍처인 캐스케이드 R-CNN(Cascade R-CNN)이 제안되었습니다. 각 단계의 검출기는 이전 단계에서 출력된 결과를 다음 단계의 훈련 세트로 사용하여 순차적으로 훈련됩니다. 이 재샘플링은 가설의 품질을 점진적으로 개선하며, 모든 검출기에 대해 동등한 크기의 양성 훈련 세트를 보장하고 과적합을 최소화합니다. 추론 시에도 동일한 캐스케이드가 적용되어 가설과 검출기 간의 품질 불일치를 제거합니다. 벨이나 화려한 장식 없이 구현된 캐스케이드 R-CNN은 COCO 데이터셋에서 최고 수준의 성능을 달성하였으며, VOC, KITTI, CityPerson, WiderFace 등 일반적인 물체 검출 및 특정 물체 검출 데이터셋에서도 고품질 검출 성능을 크게 개선했습니다. 마지막으로, 캐스케이드 R-CNN은 마스크 R-CNN(Mask R-CNN)보다 상당히 우수한 개선점을 보여주는 인스턴스 분할에 일반화되었습니다. 미래 연구를 지원하기 위해 Caffe 버전(\url{https://github.com/zhaoweicai/cascade-rcnn})과 Detectron 버전(\url{https://github.com/zhaoweicai/Detectron-Cascade-RCNN}) 두 가지 구현 방식이 제공되었습니다.