문장 임베딩을 활용한 다영역 의미 분할의 확장성 향상

우리는 제로샷(zero-shot) 환경에서도 최첨단의 지도 학습 성능을 달성할 수 있는 의미 분할(semantic segmentation) 접근법을 제안한다. 이 방법을 통해 각 주요 의미 분할 데이터셋에서 해당 데이터셋에 대해 학습하지 않고도, 지도 학습 방법과 동등한 성능을 달성할 수 있다. 이는 각 클래스 레이블을 해당 클래스를 설명하는 짧은 단락의 벡터 값 임베딩(vector-valued embedding)으로 대체함으로써 달성된다. 이러한 접근법의 일반성과 단순성 덕분에, 서로 다른 도메인에서 나온 다양한 클래스 레이블과 의미를 가진 여러 데이터셋을 통합할 수 있다. 이처럼 통합된 의미 분할 데이터셋은 200만 장 이상의 이미지를 포함하며, 이로부터 학습된 모델은 해당 데이터셋에 포함된 이미지를 전혀 사용하지 않음에도 불구하고, 7개의 벤치마크 데이터셋에서 최첨단 지도 학습 방법과 동등한 성능을 보인다. 표준 의미 분할 데이터셋에서 모델을 미세 조정(fine-tuning)한 결과, NYUD-V2와 PASCAL-Context에서 각각 60%, 65%의 mIoU를 달성하여 기존 최고 성능의 지도 분할 방법보다 상당한 성능 향상을 이뤘다. 언어 임베딩 간의 유사성에 기반하여, 본 방법은 미리 보지 않은 레이블까지도 분할할 수 있다. 광범위한 실험을 통해, 본 방법이 미리 보지 않은 이미지 도메인과 미리 보지 않은 레이블에 대해 뛰어난 일반화 성능을 보이며, 깊이 추정(depth estimation) 및 인스턴스 분할(instance segmentation)과 같은 후속 응용 분야에서 놀라운 성능 향상을 가능하게 함을 입증하였다.