17일 전

DF-GAN: 텍스트에서 이미지 생성을 위한 간단하고 효과적인 베이스라인

Ming Tao, Hao Tang, Fei Wu, Xiao-Yuan Jing, Bing-Kun Bao, Changsheng Xu
DF-GAN: 텍스트에서 이미지 생성을 위한 간단하고 효과적인 베이스라인
초록

텍스트 설명에서 고품질의 현실적인 이미지를 합성하는 것은 도전적인 과제이다. 기존의 텍스트-to-이미지 생성 적대 신경망(GAN)은 일반적으로 스택형 아키텍처를 백본으로 사용하지만, 여전히 세 가지 한계를 가지고 있다. 첫째, 스택형 아키텍처는 서로 다른 이미지 스케일의 생성기 간에 엔트레인먼트(entanglement)를 유발한다. 둘째, 기존 연구들은 텍스트-이미지 의미 일관성을 보장하기 위해 적대적 학습에 추가 네트워크를 도입하고 고정하는 경향이 있으며, 이는 이러한 네트워크의 감독 능력을 제한한다. 셋째, 이전 연구들이 널리 채택한 다중모달 주의 기반의 텍스트-이미지 융합은 계산 비용이 높아 특정 이미지 스케일에서 한계를 보인다. 이러한 문제를 해결하기 위해, 우리는 더 간단하지만 더 효과적인 딥 퓨전 생성 적대 신경망(DF-GAN)을 제안한다. 구체적으로 다음과 같은 세 가지 새로운 기법을 제안한다: (i) 복수의 생성기 간의 엔트레인먼트 없이 고해상도 이미지를 직접 합성할 수 있는 새로운 일단계 텍스트-to-이미지 백본, (ii) 추가 네트워크를 도입하지 않고도 텍스트-이미지 의미 일관성을 강화할 수 있는 새로운 타겟 인식형 판별자(Target-Aware Discriminator), 이는 매칭 인식형 기울기 페널티(Matching-Aware Gradient Penalty)와 일방향 출력(One-Way Output)을 조합하여 구성된다, (iii) 텍스트 및 시각적 특징 간의 완전한 융합을 가능하게 하기 위해 융합 과정을 심화시킨 새로운 딥 텍스트-이미지 융합 블록. 기존 최첨단 방법들과 비교하여, 제안하는 DF-GAN은 더 간단하면서도 효율적이며, 현실적이고 텍스트와 일치하는 이미지를 생성하는 데 뛰어난 성능을 발휘하며, 널리 사용되는 데이터셋에서 우수한 성능을 달성하였다.