17일 전

콘텐츠가 풍부한 텍스트에서 이미지 생성을 위한 자동 회귀 모델의 확장

Jiahui Yu, Yuanzhong Xu, Jing Yu Koh, Thang Luong, Gunjan Baid, Zirui Wang, Vijay Vasudevan, Alexander Ku, Yinfei Yang, Burcu Karagol Ayan, Ben Hutchinson, Wei Han, Zarana Parekh, Xin Li, Han Zhang, Jason Baldridge, Yonghui Wu
콘텐츠가 풍부한 텍스트에서 이미지 생성을 위한 자동 회귀 모델의 확장
초록

우리는 고해상도의 사실적인 이미지를 생성하고, 복잡한 구성 및 세계 지식을 포함하는 풍부한 콘텐츠 합성을 지원하는 순차적 텍스트-이미지 생성 모델인 Pathways Autoregressive Text-to-Image (Parti) 모델을 제안한다. Parti는 기계 번역과 유사한 시퀀스-투-시퀀스 모델링 문제로 텍스트-이미지 생성을 다룬다. 다만, 타겟 출력으로 다른 언어의 텍스트 토큰이 아닌 이미지 토큰의 시퀀스를 사용한다. 이 전략은 대규모 언어 모델에 축적된 풍부한 기존 연구 성과를 자연스럽게 활용할 수 있으며, 데이터 및 모델 크기 확장에 따라 지속적으로 성능과 능력이 향상된 점을 고려할 때 특히 유리하다. 우리의 접근은 간단하다. 먼저, Parti는 이미지를 이산 토큰 시퀀스로 인코딩하기 위해 Transformer 기반의 이미지 토크나이저인 ViT-VQGAN을 사용한다. 이후, 인코더-디코더 형태의 Transformer 모델을 최대 200억 파라미터까지 확장함으로써 일관된 품질 향상을 달성하였으며, MS-COCO 데이터셋에서 제로샷 FID 점수 7.23, 파인튜닝 후 FID 점수 3.22의 새로운 최고 성능을 기록하였다. 로컬라이즈드 내러티브(Located Narratives) 및 1,600개 이상의 영문 프롬프트를 포함하는 새로운 종합적 벤치마크인 PartiPrompts (P2)에 대한 철저한 분석을 통해, Parti가 다양한 카테고리와 난이도 수준에서 뛰어난 효과를 보임을 입증하였다. 또한, 모델의 한계를 탐색하고 강조함으로써 향후 개선이 필요한 핵심 영역을 명확히 정의하고 예시화하였다. 고해상도 이미지를 확인하려면 https://parti.research.google/ 를 참조하시기 바랍니다.

콘텐츠가 풍부한 텍스트에서 이미지 생성을 위한 자동 회귀 모델의 확장 | 최신 연구 논문 | HyperAI초신경