2달 전

UniMatch V2: 반감독 학습 기반 의미 분할의 한계 확장

Lihe Yang; Zhen Zhao; Hengshuang Zhao
UniMatch V2: 반감독 학습 기반 의미 분할의 한계 확장
초록

반감독 의미 분할(Semi-supervised semantic segmentation, SSS)은 저렴한 비라벨 이미지에서 풍부한 시각적 지식을 학습하여 의미 분할 능력을 향상시키는 것을 목표로 합니다. 최근 연구들 중 UniMatch는 약한 일관성 정규화(weak-to-strong consistency regularization)를 강화함으로써 이전 연구들을 크게 개선하였습니다. 후속 연구들은 일반적으로 유사한 파이프라인을 따르고 다양한 세밀한 설계를 제안하였습니다. 그러나 달성된 진전에도 불구하고, 이상하게도 수많은 강력한 시각 모델이 등장하고 있는 이 시대에 거의 모든 SSS 연구들이 여전히 1) 작은 규모의 ImageNet-1K 사전 학습을 받은 구시대적인 ResNet 인코더를 사용하고 있으며, 2) 단순한 Pascal과 Cityscapes 데이터셋에서 평가되고 있습니다.본 연구에서는 SSS의 기준 모델을 구시대적인 ResNet 기반 인코더에서 대용량 데이터로 사전 학습된 더 강력한 ViT 기반 인코더(예: DINOv2)로 전환하는 것이 필요하다고 주장합니다. 인코더를 간단히 업데이트하는 것(심지어 매개변수 수가 2배 적더라도)은 신중한 방법 설계보다 더 큰 개선 효과를 가져올 수 있습니다. 이러한 경쟁력 있는 기준 모델 위에서, 우리는 약한 일관성을 강화하는 V1의 핵심 정신을 계승하면서도 더 적은 학습 비용과 일관되게 우수한 결과를 제공하는 업그레이드되고 간소화된 UniMatch V2를 제시합니다.또한 Pascal과 Cityscapes 데이터셋에서 점차 성능이 포화 상태에 다다르고 있다는 점을 고려할 때, 우리는 복잡한 분류 체계를 가진 더욱 도전적인 벤치마크(ADE20K와 COCO 데이터셋 등)에 초점을 맞추어야 한다고 제안합니다. 보고된 모든 값의 코드, 모델 및 로그는 https://github.com/LiheYoung/UniMatch-V2에서 확인할 수 있습니다.

UniMatch V2: 반감독 학습 기반 의미 분할의 한계 확장 | 최신 연구 논문 | HyperAI초신경