AnyText: 다국어 시각 텍스트 생성 및 편집

최근에 기반한 디퓨전 모델을 활용한 텍스트-이미지 생성 기술은 놀라운 성과를 거두고 있다. 현재 이미지 합성 기술은 매우 발달하여 높은 사실성의 이미지를 생성할 수 있지만, 생성된 이미지의 텍스트 영역에 집중할 경우 여전히 그 진위를 드러내는 경우가 존재한다. 이 문제를 해결하기 위해 우리는 다국어 시각적 텍스트 생성 및 편집을 위한 디퓨전 기반 모델인 AnyText를 제안한다. AnyText는 이미지 내 정확하고 일관성 있는 텍스트를 렌더링하는 데 중점을 두고 있다. AnyText는 두 가지 주요 요소로 구성된 디퓨전 파이프라인을 포함한다: 보조 잠재 모듈과 텍스트 임베딩 모듈이다. 먼저, 보조 잠재 모듈은 텍스트 글리프, 위치 정보, 마스킹된 이미지 등의 입력을 활용하여 텍스트 생성 또는 편집을 위한 잠재 특징을 생성한다. 두 번째로, 텍스트 임베딩 모듈은 OCR 모델을 사용하여 글자 굵기 데이터를 임베딩으로 인코딩하며, 이는 토크나이저로부터 생성된 이미지 설명 임베딩과 결합되어 배경과 자연스럽게 융합된 텍스트를 생성한다. 이를 위해 텍스트 제어 디퓨전 손실과 텍스트 지각 손실을 사용하여 편집 정확도를 더욱 향상시켰다. AnyText는 다양한 언어의 문자를 생성할 수 있으며, 지금까지의 연구를 고려할 때, 다국어 시각적 텍스트 생성을 다룬 최초의 작업이다. 특히 AnyText는 기존 커뮤니티의 디퓨전 모델에 쉽게 통합되어 정확한 텍스트 렌더링 또는 편집이 가능하다는 점에서 주목할 만하다. 광범위한 평가 실험을 수행한 결과, 본 방법은 다른 모든 기존 접근법보다 상당한 성능 차이를 보였다. 또한, 본 연구에서는 300만 개의 이미지-텍스트 쌍과 여러 언어에 대한 OCR 주석을 포함하는 대규모 다국어 텍스트 이미지 데이터셋인 AnyWord-3M을 처음으로 제안한다. AnyWord-3M 데이터셋을 기반으로 시각적 텍스트 생성의 정확성과 품질을 평가하기 위한 AnyText-벤치마크를 제안한다. 본 프로젝트는 https://github.com/tyxsspa/AnyText 에서 오픈소스로 공개되어 텍스트 생성 기술의 발전을 촉진할 예정이다.