LVIS 챌린지 트랙 기술 보고서 1위 솔루션: 대규모 어휘(instance segmentation)를 위한 분포 균형화 및 경계 개선

이 보고서는 LVIS Challenge 2021에 참가한 팀 FuXi-Fresher의 기술적 세부 사항을 소개한다. 본 연구에서 제안하는 방법은 두 가지 주요 문제에 초점을 맞추고 있다: 긴 꼬리 분포(long-tail distribution) 문제와 마스크 및 경계의 세그멘테이션 품질 문제이다. 고급 HTC(Instance Segmentation) 알고리즘을 기반으로 하여, CBNetv2에서 영감을 얻은 복합 연결(composite connections)을 통해 Swin-L 트랜스포머 백본을 연결함으로써 기준 성능을 향상시켰다. 긴 꼬리 분포 문제를 완화하기 위해, 데이터셋 균형화 및 손실 함수 균형화 모듈을 포함하는 분포 균형화(Distribution Balanced) 기법을 설계하였다. 또한, 마스크 스코어링과 리파인 마스크(refine-mask) 알고리즘을 조합한 마스크 및 경계 정밀화(Mask and Boundary Refinement) 기법을 도입하여 세그멘테이션 품질을 향상시켰다. 더불어, 조기 정지(early stopping)와 EMA(Exponential Moving Average) 방법을 결합할 경우 큰 성능 향상이 가능함을 기대하지 못한 방식으로 발견하였다. 마지막으로, 다중 스케일 테스트를 적용하고 이미지당 탐지 가능한 객체 수의 상한을 증가시킴으로써, LVIS Challenge 2021의 검증 세트에서 경계 AP( boundary AP)가 45.4%를 초과하는 성과를 달성하였다. 테스트 데이터셋에서는 1위를 기록하며 48.1%의 AP를 달성하였으며, 특히 APr는 47.5%로 APf(48.0%)에 매우 근접한 성능을 보였다.