2달 전

이미지-텍스트 쌍만으로 오픈 월드 의미 분할을 위한 텍스트 기반 마스크 생성 학습

Junbum Cha; Jonghwan Mun; Byungseok Roh
이미지-텍스트 쌍만으로 오픈 월드 의미 분할을 위한 텍스트 기반 마스크 생성 학습
초록

우리는 밀도 높은 주석 없이 이미지-텍스트 쌍만을 사용하여 임의의 시각적 개념을 이미지에서 분할하는 것을 목표로 하는 오픈 월드 의미 분할 문제를 다룹니다. 기존의 오픈 월드 분할 방법들은 대조 학습(CL)을 사용하여 다양한 시각적 개념을 학습하고, 학습된 이미지 수준의 이해를 분할 작업으로 전달함으로써 인상적인 발전을 보여주었습니다. 그러나 이러한 CL 기반 방법들은 훈련 중에는 이미지-텍스트 일치만 고려하지만, 테스트 중에는 영역-텍스트 일치가 필요하기 때문에 훈련-테스트 불일치 문제에 직면해 있습니다. 본 논문에서는 모델이 직접 영역-텍스트 일치를 학습할 수 있도록 하는 새로운 텍스트 기반 대조 학습(TCL) 프레임워크를 제안합니다. 우리의 방법은 주어진 텍스트에 대해 분할 마스크를 생성하고, 마스킹된 영역에서 텍스트 기반 이미지 임베딩을 추출하며, 이를 TCL을 통해 텍스트 임베딩과 일치시킵니다. 직접적인 영역-텍스트 일치 학습을 통해 우리의 프레임워크는 모델이 생성된 분할 마스크의 품질을 직접 개선하도록 유도합니다. 또한 엄격하고 공정한 비교를 위해 널리 사용되는 8개의 의미 분할 데이터셋으로 구성된 통합 평가 프로토콜을 제시합니다. TCL은 모든 데이터셋에서 큰 마진으로 최신 수준의 제로샷(zero-shot) 분할 성능을 달성하였습니다. 코드는 https://github.com/kakaobrain/tcl 에서 확인 가능합니다.

이미지-텍스트 쌍만으로 오픈 월드 의미 분할을 위한 텍스트 기반 마스크 생성 학습 | 최신 연구 논문 | HyperAI초신경