9일 전
분포 정렬: 긴 꼬리 시각 인식을 위한 통합 프레임워크
Songyang Zhang, Zeming Li, Shipeng Yan, Xuming He, Jian Sun

초록
딥 뉴럴 네트워크의 최근 성공에도 불구하고, 시각 인식 작업에서 긴 꼬리(class distribution) 클래스 분포를 효과적으로 모델링하는 것은 여전히 도전 과제로 남아 있다. 이 문제를 해결하기 위해, 우리는 사전 분석적 실험을 통해 이중 단계 학습 프레임워크의 성능 한계를 탐구한다. 우리의 발견을 바탕으로, 긴 꼬리 시각 인식을 위한 통합적인 분포 정렬 전략을 제안한다. 구체적으로, 각 데이터 포인트에 대한 분류 점수를 적응적으로 조정할 수 있는 적응형 캘리브레이션 함수를 개발한다. 또한 이중 단계 학습 프레임워크 내에서 클래스 사전 확률을 균형 있게 조절하기 위해 일반화된 재가중 방법을 도입하여, 다양한 시각 인식 작업 환경에 유연하고 통합적인 해결책을 제공한다. 이미지 분류, 세분할, 객체 탐지, 인스턴스 세분할을 포함한 네 가지 작업에서 광범위한 실험을 통해 제안 방법의 유효성을 검증하였다. 제안한 방법은 간단하고 통합적인 프레임워크로, 네 가지 인식 작업 전반에서 최신 기준(SOTA) 성능을 달성하였다. 코드와 모델은 다음과 같은 공개 저장소에서 제공될 예정이다: https://github.com/Megvii-BaseDetection/DisAlign