PseCo: 반감독 객체 탐지를 위한 가상 레이블링 및 일관성 훈련

이 논문에서는 반감독 객체 탐지(Semi-Supervised Object Detection, SSOD)의 두 가지 핵심 기법인 가짜 라벨링(pseudo labeling)과 일관성 학습(consistency training)을 깊이 있게 탐구한다. 우리는 현재 이러한 두 기법이 객체 탐지의 중요한 특성을 간과하고 있음을 관찰하며, 이로 인해 미라벨링 데이터에 대한 효율적인 학습이 저해되고 있음을 밝힌다. 구체적으로, 가짜 라벨링의 경우 기존 연구들은 분류 점수에만 초점을 맞추고 있지만, 가짜 박스의 위치 정확도(로컬라이제이션 정확도)를 보장하지 못한다. 또한 일관성 학습의 경우 널리 채택된 랜덤 리사이즈 학습(random-resize training)은 라벨 수준의 일관성만 고려할 뿐, 스케일 불변성(scale invariance)을 보장하는 데 중요한 역할을 하는 특징 수준의 일관성을 간과하고 있다.이러한 노이즈가 포함된 가짜 박스로 인한 문제를 해결하기 위해, 예측을 기반으로 한 라벨 할당(Prediction-guided Label Assignment, PLA)과 긍정적 후보 제안 일관성 투표(Positive-proposal Consistency Voting, PCV)를 포함하는 노이즈 가짜 박스 학습(Noisy Pseudo box Learning, NPL)을 제안한다. PLA는 모델의 예측을 기반으로 라벨을 할당함으로써, 조건이 좋지 않은 가짜 박스에도 강건한 성능을 보장한다. 반면 PCV는 긍정적 후보 제안의 회귀 일관성을 활용하여 가짜 박스의 위치 정확도를 반영한다. 더불어 일관성 학습 측면에서, 라벨 수준과 특징 수준의 일관성을 모두 고려하는 다중 시점 스케일 불변 학습(Multi-view Scale-invariant Learning, MSL)을 제안한다. 이는 동일한 내용을 가진 이미지들 간에 스케일이 다를 때, 이동된 특징 피라미드(shifted feature pyramids)를 정렬함으로써 특징 수준의 일관성을 달성한다.COCO 벤치마크에서 제안하는 방법, 즉 PSEudo labeling and COnsistency training(PseCo)는 각각 1%, 5%, 10%의 라벨링 비율에서 기존 최고 성능(SOTA) 모델인 Soft Teacher보다 각각 2.0, 1.8, 2.0 점 높은 성능을 기록하였다. 또한 SSOD의 학습 효율성을 크게 향상시켰으며, 예를 들어 SOTA 방법의 학습 시간을 절반으로 줄였음에도 불구하고 더 우수한 성능을 달성하였다. 코드는 https://github.com/ligang-cs/PseCo 에서 공개되어 있다.