17일 전

LatteGAN: 다중 라운드 텍스트 조건부 이미지 조작을 위한 시각적 지도형 언어 주의 메커니즘

Shoya Matsumori, Yuki Abe, Kosuke Shingyouchi, Komei Sugiura, Michita Imai
LatteGAN: 다중 라운드 텍스트 조건부 이미지 조작을 위한 시각적 지도형 언어 주의 메커니즘
초록

텍스트 지도형 이미지 조작 작업은 최근 시각-언어 분야에서 주목받고 있다. 기존 연구 대부분은 단일 순차 조작에 초점을 맞추고 있으나, 본 논문의 목적은 더 도전적인 다단계 이미지 조작(Multi-turn Image Manipulation, MTIM) 작업을 해결하는 데 있다. 이전의 모델들은 지시어 시퀀스와 이전에 생성된 이미지를 입력으로 받아 반복적으로 이미지를 생성하는 데 성공했지만, 이러한 접근 방식은 지시사항에 언급된 객체의 생성 부족(under-generation)과 생성 품질 저하라는 문제를 겪으며 전체 성능이 저하되는 경향이 있다. 이러한 문제를 극복하기 위해, 본 논문에서는 시각적 지도형 언어 주의력 GAN(LatteGAN)이라는 새로운 아키텍처를 제안한다. 여기서 우리는 기존 접근 방식의 한계를 극복하기 위해, 생성자에게 세밀한 텍스트 표현을 추출하는 시각적 지도형 언어 주의력(Latte) 모듈과, 가짜 또는 진짜 이미지의 전역 및 국소 표현을 동시에 구분하는 텍스트 조건부 U-Net 디스커리미네이터 아키텍처를 도입한다. CoDraw 및 i-CLEVR라는 두 가지 서로 다른 MTIM 데이터셋에서 실시한 광범위한 실험을 통해 제안된 모델이 최신 기술 수준의 성능을 보임을 입증하였다.

LatteGAN: 다중 라운드 텍스트 조건부 이미지 조작을 위한 시각적 지도형 언어 주의 메커니즘 | 최신 연구 논문 | HyperAI초신경