13일 전

언어 기반 의미 분할

Boyi Li, Kilian Q. Weinberger, Serge Belongie, Vladlen Koltun, René Ranftl
언어 기반 의미 분할
초록

우리는 언어 기반의 의미 이미지 세분화를 위한 새로운 모델인 LSeg를 제안한다. LSeg는 설명적인 입력 레이블(예: "잔디" 또는 "건물")의 임베딩을 계산하는 텍스트 인코더와, 입력 이미지의 각 픽셀에 대한 밀집형 임베딩을 계산하는 트랜스포머 기반 이미지 인코더를 사용한다. 이미지 인코더는 해당 의미 클래스의 텍스트 임베딩과 픽셀 임베딩을 정렬하도록 대조적 목적함수를 통해 학습된다. 텍스트 임베딩은 의미적으로 유사한 레이블이 임베딩 공간에서 유사한 영역에 매핑되는 유연한 레이블 표현을 제공한다(예: "고양이"와 "털이 많은 것"). 이를 통해 LSeg는 재학습 없이도 테스트 시 미리 보지 못한 카테고리에 일반화할 수 있으며, 추가적인 학습 샘플 하나도 필요하지 않다. 제안한 방법이 기존의 제로샷 및 희소샷 의미 세분화 기법과 비교해 매우 경쟁력 있는 제로샷 성능을 달성함을 입증하였으며, 고정된 레이블 집합이 제공될 경우 전통적인 세분화 알고리즘의 정확도에까지 도달함을 보였다. 코드와 데모는 https://github.com/isl-org/lang-seg 에서 확인할 수 있다.