장기 꼬리 객체 검출을 위한 프랙탈 캘리브레이션

실세계 데이터셋은 불균형한 분포를 따르며, 이는 희귀 카테고리 객체 검출에 중대한 도전을 제기합니다. 최근 연구에서는 데이터셋의 클래스 빈도를 활용하는 재가중(re-weighting) 및 재샘플링(re-sampling) 방법을 개발하여 이 문제를 해결하고 있습니다. 그러나 이러한 기술들은 빈도 통계에만 집중하여 이미지 공간에서의 클래스 분포를 무시함으로써 중요한 정보를 놓치고 있습니다. 이에 대비하여 우리는 장기 꼬리(long-tailed) 객체 검출을 위한 새로운 후보정(post-calibration) 방법인 프랙탈 보정(FRActal CALibration, FRACAL)을 제안합니다.FRACAL은 프랙탈 차원을 활용하여 이미지 공간에서 클래스들이 얼마나 균일하게 분포되어 있는지를 추정하는 로짓 조정(logit adjustment) 방법을 설계하였습니다. 추론 단계에서는 프랙탈 차원을 사용하여 균일하게 분포된 클래스 예측의 확률을 역으로 감소시키므로, 자주 등장하는 카테고리와 희귀 카테고리 사이, 그리고 균일하게 분포된 클래스와 드물게 분포된 클래스 사이에서 균형을 이루게 됩니다. FRACAL은 후처리 방법이며 어떠한 학습도 필요하지 않으며, 단일 스테이지 시그모이드(sigmoid) 검출기 및 두 단계 인스턴스 세그멘테이션(instance segmentation) 모델과 같은 다양한 사전 학습(pre-trained) 모델들과 결합할 수 있습니다.FRACAL은 최대 8.6%까지 희귀 클래스 성능을 향상시키며, LVIS 데이터셋에서 모든 이전 방법들을 능가하였으며, COCO, V3Det 및 OpenImages 등의 다른 데이터셋들에서도 좋은 일반화 성능을 보여주었습니다. 코드는 https://github.com/kostas1515/FRACAL 에 제공됩니다.