HyperAI초신경

모델 소개

Kolors는 Kuaishou Kolors 팀이 개발한 잠재 확산을 기반으로 한 대규모 텍스트-이미지 생성 모델입니다. 수십억 개의 텍스트-이미지 쌍으로 학습된 Kolors는 시각적 품질, 복잡한 의미적 정확도, 중국어와 영어 문자에 대한 텍스트 렌더링 측면에서 오픈 소스 및 폐쇄 소스 모델에 비해 상당한 이점을 보여줍니다. 또한 Kolors는 중국어와 영어 입력을 모두 지원하며, 중국어 콘텐츠를 이해하고 생성하는 데 뛰어난 성능을 보여줍니다. 생성된 결과는 Midjourney-v6와 비슷하며 최대 256자 길이의 텍스트 입력을 지원합니다.

실행 방법

1. 컨테이너를 복제하고 실행합니다.

2. 컨테이너가 "실행 중" 상태일 때 API 주소를 복사하여 브라우저에서 열어주세요.

3. 링크를 열면 다음과 같은 인터페이스를 볼 수 있습니다.

4. 아래를 클릭하여 사진을 업로드하고 텍스트 프롬프트를 입력하세요. 딸깍 하는 소리 이미지 생성 결과가 생성됩니다

필요에 따라 관련 매개변수를 수정할 수도 있습니다.

높이: 생성된 이미지의 높이를 수정합니다.
너비: 생성된 이미지의 너비를 수정합니다.
추론 단계: 이미지를 생성할 때 사용되는 노이즈 제거 단계의 수입니다. 일반적으로 기본 추론 단계 수(예: 50)를 사용하면 고품질 이미지가 생성됩니다. 생성된 효과를 빠르게 미리 보려면 더 작은 단계 번호를 사용하면 됩니다. 가장 높은 품질의 결과를 원하시면 더 큰 단계 번호를 사용하세요.
안내 척도: 이미지를 생성할 때 모델이 텍스트 프롬프트를 따르는 정도를 제어하는 하이퍼 매개변수입니다. 값이 클수록(예: 7보다 큼) 생성된 이미지가 텍스트 프롬프트 설명과 시각적으로 더 가까워지고 품질과 일관성이 높아집니다. 값이 작을수록(예: 7 미만) 생성된 이미지는 더 다양해지고, 모델은 이미지를 생성할 때 텍스트 단서에 덜 의존하게 되어 더 많은 창의성과 변형이 가능합니다.
프롬프트당 이미지: 모델에서 생성되는 이미지 수를 수정합니다.

5. 결과 생성

토론 및 교류

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓