3달 전

텍스트에서 마스크로: 텍스트-이미지 확산 모델의 어텐션을 이용한 엔티티 국소화

Changming Xiao, Qi Yang, Feng Zhou, Changshui Zhang
텍스트에서 마스크로: 텍스트-이미지 확산 모델의 어텐션을 이용한 엔티티 국소화
초록

최근에 확산 모델(Diffusion models)은 텍스트-to-이미지 생성 분야에서 혁신을 일으켰다. 텍스트와 이미지 정보를 독특한 방식으로 융합함으로써, 매우 텍스트와 관련성이 높은 이미지를 생성할 수 있는 뛰어난 능력을 갖추고 있다. 다른 관점에서 보면, 이러한 생성 모델은 단어와 픽셀 간의 정밀한 상관관계에 대한 단서를 암시한다. 본 연구에서는 텍스트-to-이미지 확산 모델의 노이즈 제거 네트워크 내부의 어텐션 메커니즘을 간단하지만 효과적으로 활용하는 방법을 제안한다. 재학습이나 추론 시 최적화 과정 없이도, 어휘 표현의 의미 기반(semantic grounding)을 직접적으로 확보할 수 있다. 제안한 방법은 약한 감독(semi-supervised) 세그멘테이션 설정 하에서 Pascal VOC 2012 및 Microsoft COCO 2014 데이터셋에서 평가되었으며, 기존의 방법들에 비해 우수한 성능을 달성하였다. 또한, 얻어진 단어-픽셀 상관관계가 사용자 정의 생성 방법의 학습된 텍스트 임베딩에 대해 일반화 가능함이 확인되었으며, 단지 소수의 수정만으로도 적용이 가능하다. 본 발견을 검증하기 위해 새로운 실용적인 과제인 ‘개인화된 참조 이미지 세그멘테이션(personalized referring image segmentation)’을 제안하고, 새로운 데이터셋을 구성하였다. 다양한 상황에서의 실험을 통해 본 방법이 강력한 기준 모델들에 비해 우수한 성능을 보임을 입증하였다. 요약하자면, 본 연구는 확산 모델 내부에 숨겨진 풍부한 다중모달 지식을 세그멘테이션에 활용할 수 있는 새로운 접근법을 제시한다.