2달 전

DM-GAN: 동적 메모리 생성 적대 네트워크를 이용한 텍스트-이미지 합성

Minfeng Zhu; Pingbo Pan; Wei Chen; Yi Yang
DM-GAN: 동적 메모리 생성 적대 네트워크를 이용한 텍스트-이미지 합성
초록

본 논문에서는 텍스트 설명으로부터 실제적인 이미지를 생성하는 문제에 초점을 맞추고 있습니다. 현재의 방법들은 먼저 대략적인 형태와 색상을 가진 초기 이미지를 생성한 후, 이를 고해상도 이미지로 개선합니다. 기존의 텍스트-이미지 합성 방법들은 두 가지 주요 문제를 가지고 있습니다. (1) 이러한 방법들은 초기 이미지의 품질에 크게 의존합니다. 초기 이미지가 제대로 초기화되지 않으면, 후속 과정에서 이미지를 만족스러운 품질로 개선하기가 어렵습니다. (2) 다른 이미지 내용을 묘사할 때 각 단어는 서로 다른 수준의 중요성을 갖지만, 기존의 이미지 개선 과정에서는 변하지 않는 텍스트 표현이 사용됩니다. 본 논문에서는 고품질 이미지를 생성하기 위해 동적 메모리 생성 적대 네트워크(DM-GAN, Dynamic Memory Generative Adversarial Network)를 제안합니다. 제안된 방법은 초기 이미지가 잘 생성되지 않은 경우 모호한 이미지 내용을 개선하기 위해 동적 메모리 모듈을 도입합니다. 메모리 쓰기 게이트는 초기 이미지 내용을 기반으로 중요한 텍스트 정보를 선택하도록 설계되어, 이는 우리의 방법이 텍스트 설명으로부터 정확하게 이미지를 생성할 수 있도록 합니다. 또한 응답 게이트를 활용하여 메모리에서 읽은 정보와 이미지 특징을 적응적으로 융합합니다. 우리는 DM-GAN 모델을 Caltech-UCSD Birds 200 데이터셋과 Microsoft Common Objects in Context 데이터셋에서 평가하였습니다. 실험 결과는 우리의 DM-GAN 모델이 최신 접근 방식들에 비해 우수한 성능을 보임을 입증하고 있습니다.