17일 전

텍스트디퓨저-2: 언어 모델의 힘을 텍스트 렌더링에 적용하기

Jingye Chen, Yupan Huang, Tengchao Lv, Lei Cui, Qifeng Chen, Furu Wei
텍스트디퓨저-2: 언어 모델의 힘을 텍스트 렌더링에 적용하기
초록

최근 몇 년간 확산 모델( diffusion model)은 강력한 생성 모델로 입증되었지만, 시각적 텍스트 생성 측면에서는 여전히 도전 과제를 안고 있다. 몇몇 기법들은 텍스트를 어디에 그리고 무엇을 작성할지에 대한 명시적인 위치 및 내용 정보를 가이드로 삼아 이 문제를 완화하고자 하였다. 그러나 이러한 방법들은 여전히 유연성과 자동화의 한계, 레이아웃 예측 능력의 제약, 스타일 다양성의 제한 등 여러 단점에 직면해 있다. 본 논문에서는 언어 모델의 잠재력을 텍스트 렌더링에 최대한 활용하기 위해 TextDiffuser-2를 제안한다. 먼저, 대규모 언어 모델을 레이아웃 계획을 위한 미세조정(fine-tuning)에 활용한다. 이 대규모 언어 모델은 텍스트 렌더링을 위한 키워드를 자동으로 생성할 수 있을 뿐만 아니라, 대화를 통해 레이아웃을 수정하는 것도 지원한다. 둘째, 확산 모델 내부에서 언어 모델을 활용하여 라인 단위로 텍스트의 위치와 내용을 인코딩한다. 기존 방법들이 밀접한 문자 단위 가이드를 사용한 것과 달리, 본 방법은 더 다양한 텍스트 이미지를 생성할 수 있다. 우리는 광범위한 실험을 수행하고, 인간 참여자와 GPT-4V를 포함한 사용자 연구를 통해 TextDiffuser-2가 보다 합리적인 텍스트 레이아웃과 더 높은 다양성을 갖춘 텍스트 생성을 가능하게 함을 검증하였다. 코드와 모델은 \url{https://aka.ms/textdiffuser-2}에서 공개될 예정이다.

텍스트디퓨저-2: 언어 모델의 힘을 텍스트 렌더링에 적용하기 | 최신 연구 논문 | HyperAI초신경