부유한 의미와 거친 위치 정보를 활용한 장미 꼬리 객체 검출 학습

장미 꼬리 객체 검출(Long-tailed Object Detection, LTOD)은 실제 데이터셋에서 발생하는 극단적인 데이터 불균형 문제를 해결하기 위한 목표입니다. 이 문제는 많은 장미 꼬리 클래스들이 적은 인스턴스를 가지고 있다는 점에서 발생합니다. 한 가지 널리 사용되는 전략은 이미지 레벨 라벨을 가진 추가 데이터를 활용하는 것입니다. 그러나 이 방법은 다음과 같은 이유로 제한된 결과를 초래합니다: (1) 의미적 모호성 -- 이미지 레벨 라벨은 이미지의 주요 부분만 포착하고 나머지 풍부한 의미론적 정보는 무시합니다; (2) 위치 민감성 -- 라벨은 원본 이미지의 위치와 잘림 영역에 크게 의존하며, 무작위 잘림(random cropping)과 같은 데이터 변환 후에는 변경될 수 있습니다.이러한 문제를 해결하기 위해, 우리는 정확한 바운딩 박스가 필요하지 않은 채로 거친 위치에서 풍부한 의미론적 정보를 학습할 수 있는 간단하면서도 효과적인 방법인 RichSem을 제안합니다. RichSem은 이미지에서 풍부한 의미론적 정보를 활용하여 감지기 학습에 대한 부가적인 소프트 감독을 제공합니다. 구체적으로, 우리는 감지기에 의미론적 분기를 추가하여 이러한 소프트 의미론을 학습하고 장미 꼬리 객체 검출을 위한 특징 표현을 강화하였습니다. 이 분기는 학습 시에만 사용되며 추론 단계에서는 제거됩니다.RichSem은 다양한 백본과 감지기 하에서 LVIS의 전체 카테고리와 희귀 카테고리 모두에서 일관된 개선 효과를 보여줍니다. 우리의 방법은 복잡한 학습 및 테스트 절차 없이 최신 성능을 달성하였습니다. 또한, 다른 장미 꼬리 데이터셋에서도 추가 실험을 통해 우리 방법의 유효성을 입증하였습니다. 코드는 \url{https://github.com/MengLcool/RichSem}에서 확인할 수 있습니다.