17일 전

eDiff-I: 전문 제거기의 앙상블을 갖춘 텍스트-to-이미지 확산 모델

Yogesh Balaji, Seungjun Nah, Xun Huang, Arash Vahdat, Jiaming Song, Qinsheng Zhang, Karsten Kreis, Miika Aittala, Timo Aila, Samuli Laine, Bryan Catanzaro, Tero Karras, Ming-Yu Liu
eDiff-I: 전문 제거기의 앙상블을 갖춘 텍스트-to-이미지 확산 모델
초록

대규모 기반의 생성 모델은 텍스트 조건부 고해상도 이미지 합성 분야에서 획기적인 성과를 이뤄냈다. 이러한 텍스트-이미지 생성 확산 모델은 무작위 노이즈에서 시작하여 반복적인 방식으로 이미지를 점진적으로 합성하면서 텍스트 프롬프트에 조건을 부여한다. 우리는 이 과정 전반에 걸쳐 생성 행동이 정성적으로 변화한다는 점을 발견했다. 샘플링 초기에는 생성이 텍스트 프롬프트에 크게 의존하여 텍스트와 일치하는 콘텐츠를 생성하지만, 후반에는 텍스트 조건이 거의 무시되는 경향을 보였다. 이는 전체 생성 과정 동안 모델 파라미터를 공유하는 것이 이상적일 수 없다는 시사점을 제공한다. 따라서 기존 연구들과는 달리, 생성 과정의 다양한 단계에 특화된 텍스트-이미지 확산 모델의 앙상블을 훈련하는 방안을 제안한다. 훈련 효율성을 유지하기 위해, 처음에는 단일 모델을 훈련한 후, 이를 반복적 생성 과정의 특정 단계에 맞게 특화된 여러 모델로 분할하여 훈련한다. 본 연구에서 제안하는 확산 모델 앙상블인 eDiff-I는 동일한 추론 계산 비용을 유지하면서도 텍스트 일치도를 향상시키며 높은 시각적 품질을 유지하며, 기존 대규모 텍스트-이미지 확산 모델들보다 표준 벤치마크에서 더 우수한 성능을 보였다. 또한 본 모델은 T5 텍스트, CLIP 텍스트, CLIP 이미지 임베딩 등 다양한 임베딩을 조건부 입력으로 활용하도록 훈련하였다. 다양한 임베딩이 서로 다른 행동 양식을 유도함을 보여주며, 특히 CLIP 이미지 임베딩은 참조 이미지의 스타일을 목표 텍스트-이미지 출력으로 직관적으로 전이할 수 있는 방법을 제공한다. 마지막으로, eDiff-I의 '단어로 그리기(paint-with-words)' 기능을 가능하게 하는 기법을 제시한다. 사용자는 입력 텍스트 내 특정 단어를 선택하고 캔버스에 그림을 그려 출력을 제어할 수 있으며, 이는 원하는 이미지를 보다 편리하게 구현하는 데 유용하다. 프로젝트 페이지는 다음 링크에서 확인할 수 있다: https://deepimagination.cc/eDiff-I/