OpenDAS: 2D 및 3D 세그멘테이션을 위한 오픈 어휘 도메인 적응

최근, 시각-언어 모델(Vision-Language Models, VLMs)은 분할 기술을 발전시켰습니다. 이는 전통적인 사전 정의된 객체 클래스의 폐쇄 집합 분할에서 개방 어휘 분할(Open-Vocabulary Segmentation, OVS)로 전환함으로써 이루어졌으며, 사용자가 분할 모델 훈련 중에 보지 못한 새로운 클래스와 개념을 분할할 수 있게 해주었습니다. 그러나 이러한 유연성은 대가를 요구합니다: 완전히 지도된 폐쇄 집합 방법이 여전히 기본 클래스에서 OVS 방법을 능가하고 있습니다. 즉, 명시적으로 훈련받은 클래스에서는 성능이 더 우수합니다. 이는 VLMs(이미지-캡션 쌍으로 훈련됨)가 픽셀 정렬된 훈련 마스크를 갖추지 못하고, 자율 주행과 같은 특정 영역의 지식이 부족하기 때문입니다.따라서, 우리는 VLMs의 개방 어휘 특성을 유지하면서 특정 영역의 지식을 주입하는 개방 어휘 영역 적응(open-vocabulary domain adaptation) 작업을 제안합니다. 이를 통해 우리는 기본 클래스와 새로운 클래스에서 성능 향상을 달성하였습니다. 기존의 VLM 적응 방법들은 기본(훈련) 쿼리에서 성능을 개선하지만, 새로운 쿼리에서 VLMs의 폐쇄 집합 기능을 완전히 유지하지 못합니다. 이러한 단점을 해결하기 위해, 우리는 매개변수 효율적인 프롬프트 조정과 보조적인 부정 쿼리를 사용하는 트리플트 손실 기반 훈련 전략을 결합하였습니다. 특히, 우리의 접근 방식은 새로운 클래스에서 일관되게 원래 VLM을 초월하는 유일한 매개변수 효율적인 방법입니다.적응된 VLMs는 다른 변경 없이 기존 OVS 파이프라인에 원활하게 통합될 수 있으며, 예를 들어 ADE20K 데이터셋에서 +6.0% mIoU(mean Intersection over Union) 성능 향상으로 OVSeg를 개선하거나 ScanNet++ Offices 데이터셋에서 +4.1% AP(Average Precision) 성능 향상으로 OpenMask3D를 개선하는 데 사용될 수 있습니다. 프로젝트 페이지는 https://open-das.github.io/ 에서 확인하실 수 있습니다.