2달 전

Forest R-CNN: 대용량 어휘와 긴 꼬리 분포를 가진 객체 검출 및 인스턴스 세그멘테이션

Wu, Jialian ; Song, Liangchen ; Wang, Tiancai ; Zhang, Qian ; Yuan, Junsong
Forest R-CNN: 대용량 어휘와 긴 꼬리 분포를 가진 객체 검출 및 인스턴스 세그멘테이션
초록

객체 분석의 이전 성공에도 불구하고, 긴 꼬리 데이터 분포를 가진 많은 객체 카테고리를 감지하고 분할하는 것은 여전히 어려운 문제이며, 이에 대한 연구가 충분하지 않습니다. 대용량 어휘 구분기의 경우, 노이즈가 있는 로짓을 얻을 확률이 훨씬 높아 잘못된 인식으로 쉽게 이어질 수 있습니다. 본 논문에서는 객체 카테고리 간의 관계에 대한 사전 지식을 활용하여 세부 클래스를 더 거친 부모 클래스로 클러스터링하고, 부모 클래스를 통해 객체 인스턴스를 세부 카테고리로 구분하는 분류 트리를 구성합니다. 분류 트리에서 부모 클래스 노드의 수가 현저히 적기 때문에 그 로짓은 덜 노이즈가 있어 세부 클래스 노드에서 존재하는 잘못된/노이즈 로짓을 억제하는 데 활용될 수 있습니다. 부모 클래스를 구성하는 방법은 유일하지 않으므로, 우리는 여러 트리를 구축하여 각 트리가 세부 분류에 대한 표결권을 제공하는 분류 숲을 형성합니다. 긴 꼬리 현상으로 인한 불균형 학습 문제를 완화하기 위해, 우리는 단순하면서도 효과적인 재표본 추출 방법인 NMS 재표본 추출(NMS Resampling)을 제안합니다. 우리의 방법, Forest R-CNN은 1000개 이상의 카테고리를 인식할 수 있는 대부분의 객체 인식 모델에 플러그 앤 플레이 모듈로서 적용될 수 있습니다. LVIS 대용량 어휘 데이터셋에서 광범위한 실험을 수행한 결과, Mask R-CNN 베이스라인과 비교하여 Forest R-CNN은 희귀 카테고리와 전체 카테고리에서 각각 11.5%와 3.9%의 AP(Average Precision) 개선율을 보여주며 성능이 크게 향상되었습니다. 또한, 우리는 LVIS 데이터셋에서 최신 연구 결과(state-of-the-art results)를 달성하였습니다. 코드는 https://github.com/JialianW/Forest_RCNN 에서 확인할 수 있습니다.

Forest R-CNN: 대용량 어휘와 긴 꼬리 분포를 가진 객체 검출 및 인스턴스 세그멘테이션 | 최신 연구 논문 | HyperAI초신경