BoxTeacher: 약한 지도 인스턴스 분할을 위한 고품질 의사 라벨 탐색

픽셀 단위로 객체를 라벨링하는 것은 바운딩 박스에 비해 엄청난 양의 인력이 필요합니다. 기존의 약한 감독 하에서의 인스턴스 분할 방법 대부분은 바운딩 박스에서 유래된 사전 정보를 활용하여 휴리스틱 손실 함수를 설계하는 데 초점을 맞추고 있습니다. 그러나 우리는 바운딩 박스를 이용한 방법들이 일부 세밀한 분할 마스크를 생성할 수 있다는 것을 발견했으며, 이러한 고품질 마스크로부터 학습하면서 저품질 마스크는 무시할 수 있는지 궁금해졌습니다. 이 질문에 답하기 위해, 우리는 BoxTeacher라는 효율적이고 end-to-end 훈련 프레임워크를 제안합니다. BoxTeacher는 고성능 약한 감독 하에서의 인스턴스 분할을 위해 정교한 교사 모델을 활용하여 고품질 마스크를 의사 라벨로 생성합니다.대규모의 노이즈 마스크가 훈련에 해롭다는 점을 고려하여, 우리는 마스크 품질을 추정하기 위한 마스크 인식 신뢰도 점수(mask-aware confidence score)를 제시하고, 이를 통해 의사 마스크에 적응적으로 최적화되는 학생 모델을 위한 노이즈 인식 픽셀 손실(noise-aware pixel loss)과 노이즈 감소 친화성 손실(noise-reduced affinity loss)을 제안합니다. 광범위한 실험 결과가 제안된 BoxTeacher의 효과성을 입증합니다. 복잡한 설정 없이, BoxTeacher는 도전적인 COCO 데이터셋에서 ResNet-50과 ResNet-101을 각각 사용하여 35.0 마스크 AP와 36.5 마스크 AP를 달성하며, 이는 이전 최신 방법론들보다 크게 우월하며 바운딩 박스 기반 감독과 마스크 기반 감독 사이의 격차를 줄이는 역할을 합니다. 코드와 모델은 https://github.com/hustvl/BoxTeacher에서 제공될 예정입니다.