Command Palette
Search for a command to run...

초록
우리는 텍스트-to-이미지(T2I) 합성, 이미지 편집, 다중 이미지 구성 기능을 하나의 프레임워크 내에서 통합한 효율적이고 고성능의 다중모달 이미지 생성 시스템인 Seedream 4.0을 소개한다. 우리는 강력한 VAE를 갖춘 매우 효율적인 확산 트랜스포머(diffusion transformer)를 개발하여 이미지 토큰 수를 크게 줄이는 데 성공했다. 이는 모델의 효율적인 학습을 가능하게 하며, 원본 고해상도 이미지(예: 1K~4K)를 빠르게 생성할 수 있도록 한다. Seedream 4.0은 다양한 분류 체계와 지식 중심 개념을 포함하는 수십억 개의 텍스트-이미지 쌍을 기반으로 사전 학습되었다. 수백 가지 수직적 시나리오에 걸쳐 체계적으로 수집된 데이터와 최적화된 학습 전략을 결합함으로써 안정적이고 대규모의 학습이 가능하며, 뛰어난 일반화 능력을 확보할 수 있다. 또한 정교하게 미세 조정된 다중모달 언어 모델(VLM)을 도입하여, T2I 생성과 이미지 편집 작업을 동시에 학습하는 다중모달 후속 학습(post-training)을 수행하였다. 추론 속도 향상을 위해, 적대적 정규화(distillation), 분포 매칭(distribution matching), 양자화(quantization), 그리고 사전 추정 추론(speculative decoding) 기술을 통합하였다. 이를 통해 2K 해상도 이미지를 생성하는 추론 시간을 최대 1.8초로 단축하였으며(추론 시 LLM/VLM을 PE 모델로 사용하지 않은 경우), 매우 빠른 성능을 실현하였다. 종합적인 평가 결과, Seedream 4.0은 T2I 생성 및 다중모달 이미지 편집 모두에서 최신 기술 수준(SOTA)의 성능을 달성함을 확인하였다. 특히 복잡한 작업에서 뛰어난 다중모달 능력을 보여주며, 정밀한 이미지 편집 및 컨텍스트 내 추론(in-context reasoning) 능력뿐 아니라, 다중 이미지 참조 기능과 다중 출력 이미지 생성을 지원한다. 이는 전통적인 T2I 시스템을 더 상호작용적이고 다차원적인 창작 도구로 발전시켜, 창의성 및 전문 응용 분야에서 생성형 AI의 경계를 확장한다. Seedream 4.0은 현재 https://www.volcengine.com/experience/ark?launch=seedream 에서 이용 가능하다.