다중 에이전트 기반 생성 기능은 SOTA에 도달했으며 Byte UNO 모델은 다양한 이미지 생성 작업을 처리할 수 있습니다.

오늘날, 피사체 중심 생성은 이미지 생성 분야에서 널리 사용되고 있지만, 데이터 확장성과 피사체 확장성 측면에서 여전히 많은 과제에 직면해 있습니다. 예를 들어, 단일 주제 데이터 세트에서 다중 주제 데이터 세트로 전환하고 확장하는 것은 특히 어렵습니다. 현재 인기 있는 연구 방향은 단일 주제 연구인데, 이는 다중 주제 생성 작업에 직면했을 때 성과가 좋지 않습니다.
이를 고려하여,중국 인터넷 기술 기업인 바이트댄스의 Intelligent Creation 팀은 확산 변압기 모델의 컨텍스트 생성 기능을 사용하여 높은 일관성을 가진 다중 에이전트 쌍 데이터를 생성하고, 이미지 생성 작업에서 다양한 입력 조건을 처리할 수 있는 FLUX 기반 UNO 모델을 제안했습니다."모델-데이터 공진화"라는 새로운 패러다임을 사용하여 모델 성능을 최적화하는 동시에 학습 데이터를 풍부하게 하고 생성된 이미지의 품질과 다양성을 개선합니다. 연구진은 DreamBench와 다중 에이전트 기반 세대 벤치마크에 대한 광범위한 실험을 수행했습니다. UNO는 두 과제 모두에서 가장 높은 DINO 및 CLIP-I 점수를 달성하여 주제 유사성과 텍스트 제어성 측면에서 뛰어난 성과를 보였으며, SOTA 수준에 도달했습니다.
현재, HyperAI 공식 웹사이트의 튜토리얼 섹션에서 "UNO: Universal Customized Image Generation" 튜토리얼이 출시되었습니다.아래 링크를 클릭하시면 빠르게 체험하실 수 있습니다↓
튜토리얼 링크:https://go.hyper.ai/XELg5
데모 실행
1. hyper.ai에 로그인하고, 튜토리얼 페이지에서 UNO: Universal Customized Image Generation을 선택하고, 이 튜토리얼을 온라인으로 실행을 클릭합니다.
2. 페이지가 이동한 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.
3. "NVIDIA GeForce RTX 4090"과 "PyTorch" 이미지를 선택하세요. OpenBayes 플랫폼은 4가지 청구 방법을 제공합니다. 귀하의 요구 사항에 따라 "사용 후 결제" 또는 "일일/주간/월간"을 선택할 수 있습니다. "계속"을 클릭하세요. 신규 사용자는 아래 초대 링크를 사용하여 등록하고 RTX 4090 4시간 + CPU 자유 시간 5시간을 받으세요!
HyperAI 독점 초대 링크(복사하여 브라우저에서 열기):
https://openbayes.com/console/signup?r=Ada0322_NR0n
4. 리소스가 할당될 때까지 기다리세요. 첫 번째 클로닝 과정은 약 2분이 걸립니다. 상태가 "실행 중"으로 변경되면 "API 주소" 옆에 있는 점프 화살표를 클릭하여 데모 페이지로 이동합니다. API 주소 접근 기능을 이용하기 위해서는 이용자는 실명인증을 완료해야 합니다.
효과 시연
"프롬프트"에 생성된 이미지를 설명하는 텍스트를 입력한 다음, "참조 이미지"에 생성된 이미지의 이미지 콘텐츠를 업로드합니다. "생성 너비/높이"를 조정하여 생성된 이미지의 길이/너비를 선택한 후, 마지막으로 "생성"을 클릭합니다.
매개변수 조정 소개:
- 단계 수: 모델의 반복 횟수 또는 추론 과정의 단계 수를 나타내며, 모델이 결과를 생성하는 데 사용하는 최적화 단계 수를 나타냅니다. 일반적으로 단계 수가 많을수록 더 정교한 결과가 나오지만 계산 시간은 늘어날 수 있습니다.
- 안내: 생성 모델에서 조건부 입력(예: 텍스트나 이미지)이 생성된 결과에 미치는 영향의 정도를 제어하는 데 사용됩니다. 높은 지침 값을 사용하면 생성된 결과가 입력 조건과 더 일치하게 되지만, 낮은 값을 사용하면 더 많은 무작위성이 유지됩니다.
- 씨앗: 생성 과정의 무작위성을 제어하는 데 사용되는 난수 시드입니다. 동일한 Seed 값은 동일한 결과를 생성할 수 있습니다(다른 매개변수가 동일하다는 전제 하에). 이는 결과를 재현하는 데 매우 중요합니다.
여기에 로고와 컵 사진을 업로드했고, 텍스트 설명은 다음과 같습니다. 로고가 컵에 인쇄되어 있습니다. 모델이 이미지를 매우 정확하게 처리한 것을 볼 수 있습니다.