강력하지만 단순함: CLIP 기반 전이 학습을 통한 영역 일반화 밀도 인식의 기준선

도메인 일반화(DG)는 합성 데이터, 조명, 날씨 또는 위치 변화 등으로 인해 도메인 이동이 발생하는 깊은 신경망(DNNs) 기반의 지각에서 여전히 중요한 과제입니다. 시각-언어 모델(VLMs)은 일반화 능력에 큰 발전을 가져왔으며 이미 다양한 작업에 적용되었습니다. 최근에는 처음으로 VLMs를 도메인 일반화된 세그멘테이션과 객체 검출에 활용한 접근법들이 강력한 일반화 성능을 얻었습니다. 그러나 이러한 모든 접근법들은 복잡한 모듈, 특징 증강 프레임워크 또는 추가적인 모델에 의존하고 있습니다. 놀랍게도, 우리는 시각-언어 사전학습 모델을 간단하게 미세조정(fine-tuning)하면 경쟁력 있는 혹은 더 강력한 일반화 결과를 얻을 수 있다는 것을 발견했습니다. 이 방법은 적용하기 extremely simple(극히 간단함)입니다. 또한, 우리는 시각-언어 사전학습이 이전의 시각만을 위한 사전학습보다 일관되게 더 나은 일반화를 제공한다는 것을 발견했습니다. 이는 ImageNet 기반의 전이 학습을 도메인 일반화에 사용하는 표준을 도전합니다.시각-언어 사전학습 모델을 완전히 미세조정하면 합성 GTA5 데이터셋에서 훈련할 때 도메인 일반화 최고 수준(SOTA)에 도달할 수 있습니다. 또한, 우리는 새로운 합성-실제 벤치마크에서 객체 검출에 대한 이 관찰을 확인하였습니다. 더욱이, 우리는 인기 있는 Cityscapes-to-ACDC 벤치마크에서 77.9%의 mIoU를 달성하여 우수한 일반화 능력을 보여주었습니다. 또한, 우리는 도메인 내에서 개선된 일반화를 통해 Cityscapes 테스트 세트에서 86.4%의 mIoU로 개선된 최고 수준(SOTA)을 달성하였으며, 리더보드에서 1위를 차지하였습니다.(주의: "extremely simple"는 한국어에서는 "극히 간단함"으로 번역되었습니다.)