Tencent HunyuanDiT Wenshengtu 데모

Hunyuan-DiT: 강력한 다중 해상도 확산 변환기 및 세분화된 중국어 이해 모델
이 모델은 최초의 중국어-영어 이중 언어 DiT 아키텍처로, Diffusion 변환기를 기반으로 한 텍스트-이미지 생성 모델로, 중국어와 영어에 대한 세밀한 이해 기능을 갖추고 있습니다. 연구팀은 Hunyuan DiT를 구축하기 위해 Transformer 구조, 텍스트 인코더, 위치 인코딩을 신중하게 재설계했습니다. 모델 최적화 반복에 대한 지원을 제공하여 데이터를 업데이트하고 평가하기 위한 완전한 데이터 파이프라인이 구축되었습니다. 세밀한 텍스트 이해를 달성하기 위해 이 프로젝트에서는 다중 모드 대규모 언어 모델을 훈련하여 이미지의 텍스트 설명을 최적화했습니다. 궁극적으로 Hunyuan DiT는 사용자와 여러 차례 대화를 나누고, 맥락에 따라 이미지를 생성하고 다듬을 수 있습니다.
🎉 Hunyuan-DiT 주요 특징
Hunyuan-DiT는 아래 그림에서 볼 수 있듯이 잠재 공간의 확산 모델입니다. 잠재 확산 모델을 기반으로 사전 학습된 변이 자동 인코더(VAE)를 사용하여 이미지를 저차원 잠재 공간으로 압축하고, 확산 모델을 학습하여 데이터 분포를 학습합니다. 확산 모델은 변환기를 사용하여 매개변수화됩니다. 텍스트 프롬프트를 인코딩하기 위해 이 모델은 사전 훈련된 이중 언어(영어와 중국어) CLIP 인코더와 다국어 T5 인코더를 조합하여 활용합니다.

다중 라운드 텍스트 그래프 구성
자연어 명령을 이해하고 사용자와 여러 차례 상호 작용을 하는 것은 AI에 매우 중요합니다. 텍스트-이미지 시스템은 사용자의 아이디어를 단계적으로 현실로 구현해 역동적이고 반복적인 창의적 프로세스를 구축하는 데 도움이 될 수 있습니다. 이 섹션에서는 Hunyuan-DiT에 멀티턴 대화와 이미지 생성 기능을 부여하고, mlm이 멀티턴 사용자 대화를 이해하도록 훈련하고, 이미지 생성을 위한 새로운 텍스트 프롬프트를 출력하는 방법을 자세히 설명합니다.

모델 생성 성능
- 긴 텍스트 입력

📈 기존 모델과의 비교
연구팀은 HunyuanDiT와 다른 모델의 생성 능력을 종합적으로 비교하기 위해 4차원 테스트 세트를 구성하고, 50명 이상의 전문 평가자를 초대하여 텍스트-이미지 일관성, AI 아티팩트 배제, 주제 명확성, 미학 등의 영역에서 성능을 평가했습니다.
모델 | 오픈소스 | 텍스트-이미지 일관성(%) | AI 아티팩트 제외(%) | 주제 명확성(%) | 미학(%) | 전체 (%) |
---|---|---|---|---|---|---|
SDXL | ✔ | 64.3 | 60.6 | 91.1 | 76.3 | 42.7 |
픽스아트-α | ✔ | 68.3 | 60.9 | 93.2 | 77.5 | 45.5 |
놀이터 2.5 | ✔ | 71.9 | 70.8 | 94.9 | 83.3 | 54.3 |
SD 3 | ✘ | 77.1 | 69.3 | 94.6 | 82.5 | 56.7 |
미드저니 v6 | ✘ | 73.5 | 80.2 | 93.5 | 87.2 | 63.3 |
달-이 3 | ✘ | 83.9 | 80.3 | 96.5 | 89.4 | 71.0 |
헌원-디티 | ✔ | 74.2 | 74.3 | 95.4 | 86.6 | 59.0 |
튜토리얼 사용법
1. 컨테이너를 복제하고 시작합니다.
- [주의] 모델이 크기 때문에 컨테이너가 성공적으로 시작된 후 모델이 로드될 때까지 기다리는 데 약 2~3분이 소요될 수 있습니다.

2. 사용자 인터페이스
샘플링 단계의 수가 클수록 생성 효과는 좋아지지만 생성 시간은 길어집니다.默认的采样步数生成时间在一分钟左右
