Semi-DETR: 탐지 트랜스포머를 활용한 반감독 학습 객체 탐지

우리는 반감독 객체 탐지(SSOD)에서 기반한 DETR 프레임워크를 분석하면서 다음과 같은 두 가지 문제점을 관찰하였다. (1) 일대일 대응 전략은 가상의 진짜 경계 상자(이하 pseudo ground-truth bounding box)가 정확하지 않을 경우 잘못된 매칭을 유도하여 학습 효율성이 저하된다. (2) DETR 기반 탐지기는 입력 쿼리(query)와 그 예측 출력 사이에 결정적 대응 관계가 부족하여, 현재 SSOD 방법에서 널리 사용되는 일관성 기반 정규화 기법의 적용을 방해한다. 이를 해결하기 위해 우리는 처음으로 트랜스포머 기반의 엔드투엔드 반감독 객체 탐지기인 Semi-DETR를 제안한다. 구체적으로, 첫 번째 단계의 학습 효율성을 향상시켜 두 번째 단계 학습을 위한 고품질의 가상 라벨을 제공하기 위해 일대다 대응 전략과 일대일 대응 전략을 결합한 단계별 하이브리드 매칭 전략(Stage-wise Hybrid Matching)을 제안한다. 또한, 서로 다른 시점(뷰)에서의 객체 쿼리에 대한 의미적 특징 불변성을 학습하면서 결정적 쿼리 대응 관계를 찾는 필요 없이 일관성을 유지하는 크로스뷰 쿼리 일관성(Crossview Query Consistency) 기법을 도입한다. 더불어, 가상의 진짜 경계 상자에 대한 매칭 비용을 기반으로 일관성 학습을 위한 더 많은 가상 박스를 동적으로 탐색하는 비용 기반 가상 라벨 마이닝(Cost-based Pseudo Label Mining) 모듈을 제안한다. COCO 및 Pascal VOC 기준 데이터셋의 모든 SSOD 설정에서 실시한 광범위한 실험 결과, 우리 방법인 Semi-DETR는 기존 최고 성능(SOTA) 방법들을 명확한 차이로 능가함을 확인하였다. PaddlePaddle 버전의 코드는 다음 링크에서 확인할 수 있다: https://github.com/PaddlePaddle/PaddleDetection/tree/develop/configs/semi_det/semi_detr.