HyperAI超神经

오랫동안 다양한 예술적 스타일을 지닌 Midjourney부터 OpenAI가 지원하는 DALL-E, 오픈소스 Stable Diffusion(약칭 SD)에 이르기까지 텍스트 기반 그래프 모델의 생성 품질과 속도는 끊임없이 업그레이드되었으며, 신속한 이해와 세부 처리는 주요 모델의 내부 순환을 위한 새로운 방향이 되었습니다.

2024년을 맞아 '2인자 경쟁' 단계에 있는 미드저니와 스테이블 디퓨전이 잇따라 노력을 기울이고 있다. SD 3가 먼저 출시되었고, 그 후 Midjourney V6.1도 업데이트되고 개선되었습니다. 하지만 사람들이 아직도 SD 3와 Midjourney의 비교에 몰두해 있을 때,새로운 세대의 "악마"가 조용히 탄생했습니다. FLUX가 갑자기 등장했습니다.

FLUX에서 캐릭터, 특히 실제 사람이 등장하는 장면을 생성할 때 그 효과는 실제 장면과 매우 유사합니다. 캐릭터의 표정, 피부 광택, 헤어스타일, 색상 등의 디테일이 매우 사실적입니다.이 제품은 한때 Stable Diffusion의 후속 제품으로 환영받았습니다.흥미로운 점은 둘이 매우 가까운 관계라는 점입니다.

FLUX를 개발한 팀인 Black Forest Labs의 창립자인 로빈 롬바흐는 Stable Diffusion의 공동 개발자 중 한 명입니다. 로빈은 Stability AI를 떠난 후 Black Forest Labs를 설립했습니다.그리고 FLUX.1 모델을 출시했습니다.

현재 FLUX.1은 Pro, Dev, Schnell의 3가지 버전을 제공합니다. Pro 버전은 API를 통해 제공되는 폐쇄형 소스 버전으로, 상업적으로 사용 가능하며 가장 강력한 버전입니다. Dev 버전은 Pro 버전에서 직접 "추출"한 오픈 소스 버전으로, 비상업적 라이선스가 적용됩니다. 슈넬 버전은 가장 빠른 유선형 버전으로, 최대 10배 더 빠르게 실행된다고 합니다. 오픈 소스이며 Apache 2 라이선스를 사용하므로 로컬 개발 및 개인 사용에 적합합니다.

여러분 중 많은 분들이 이 새로운 세대의 최고 문학적 그림을 실제로 경험하고 싶어할 거라고 믿습니다!HyperAI 공식 웹사이트(hyper.ai)의 튜토리얼 섹션에서는 이제 FLUX [dev]의 ComfyUI 버전인 "FLUX ComfyUI(Black Myth Wukong LoRA 훈련 버전 포함)"를 출시했으며, LoRA 훈련도 지원합니다.

관심 있는 친구들은 와서 체험해 보세요! 제가 직접 사용해봤는데 SD3, Midjourney↓만큼 효과가 좋습니다.

3개의 모델이 생성한 동일한 프롬프트

* 프롬프트: 소녀가 "나는 AI다"라고 적힌 표지판을 들고 있습니다.

또한, 빌리빌리의 인기 업 마스터인 잭-쿠이가 모든 사람에게 단계별로 가르쳐주기 위해 자세한 작동 튜토리얼도 만들었습니다!

튜토리얼 주소:

https://go.hyper.ai/trQhv

작동 영상:

https://www.bilibili.com/video/BV1xSpKeVEeM

데모 실행

FLUX ComfyUI 실행

1. hyper.ai에 로그인하고 튜토리얼 페이지에서 이 튜토리얼을 온라인으로 실행을 클릭합니다. "FLUX ComfyUI(Black Myth Wukong LoRA 교육 버전 포함)"에서 "이 튜토리얼을 온라인으로 실행"을 클릭합니다.

2. 페이지가 이동한 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

3. 오른쪽 하단에 있는 "다음: 해시레이트 선택"을 클릭합니다.

4. 페이지가 이동한 후 "NVIDIA RTX 4090"과 "PyTorch" 이미지를 선택하고 "다음: 검토"를 클릭합니다.신규 사용자는 아래 초대 링크를 사용하여 등록하고 RTX 4090 4시간 + CPU 자유 시간 5시간을 받으세요!

HyperAI 독점 초대 링크(복사하여 브라우저에서 열기):

https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

5. 확인 후 "계속"을 클릭하고 리소스가 할당될 때까지 기다리세요. 첫 번째 복제 과정은 약 1~2분 정도 걸립니다. 상태가 "실행 중"으로 변경되면 "API 주소" 옆에 있는 점프 화살표를 클릭하여 데모 페이지로 이동합니다.API 주소 접근 기능을 이용하기 위해서는 이용자는 실명인증을 완료해야 합니다.

6. 데모를 연 후 "로캘 전환"을 클릭하여 언어를 중국어로 전환하세요.

7. 언어를 변경한 후, 왼쪽 상단의 폴더 아이콘을 클릭하여 필요한 워크플로를 선택하세요.

* 오공: 흑신화 오공 이미지 데모

* TED: TED 라이브 연설 데모

* 3mm4w: 사진에 텍스트 쓰기 데모

8. "오공" 워크플로를 선택하고, CLIP 텍스트 생성기에 프롬프트를 입력합니다(예: 오공의 등, 황금 곤봉 하나를 든 모습, 다채로운 구름, 머리 장식 왕관). "프롬프트 단어 대기열을 추가하여 이미지 생성"을 클릭하면 매우 아름다운 이미지가 생성됩니다.

FLUX LoRA 교육

1. 워크플로를 사용자 지정하려면 먼저 LoRA 모델을 학습시켜야 합니다. 지금 컨테이너 인터페이스로 돌아와서 "작업 공간 열기"를 클릭하고 새 터미널을 만드세요.

2. 터미널에 "sh train.sh"를 입력하고 Enter를 눌러 실행합니다. "공개 URL에서 실행 중"이라는 메시지가 나타나면 링크를 클릭하세요.

3. 페이지가 점프한 후, 모델의 모델을 입력하고 사진을 업로드하세요. 여기에 테일러 스위프트의 사진 5장을 업로드하세요.이미지는 얼굴 비율이 더 큰 고해상도 정면 사진이어야 합니다. 이미지 품질이 좋을수록 학습 효과도 좋아집니다.

4. 업로드가 성공적으로 완료되면 각 이미지 뒤에 영어 텍스트 설명을 직접 추가하거나, "Florence-2로 AI 캡션 추가"를 클릭하여 텍스트 설명을 자동으로 생성합니다.

5. 페이지 하단으로 스크롤하여 테스트 프롬프트(예: 어떤 사람이 커피를 마시고 있습니다)를 입력하고 "훈련 시작"을 클릭합니다.

6. 몇 분간 기다린 후 터미널 인터페이스로 돌아와서 훈련 진행률 표시줄을 볼 수 있습니다. 훈련은 약 40분 안에 완료됩니다. "output/taylor-swift/optimizer.pt에 저장됨"이라는 메시지가 나타나면 학습이 완료된 것입니다.

7. 왼쪽의 "ai-toolkit" - "output" - "taylor swift" - "sample" 파일에서 테스트 프롬프트의 효과를 확인할 수 있습니다. 효과가 좋다면, 우리 모델이 성공적으로 훈련되었다는 것을 증명합니다.

8. 모델 학습이 완료되면 학습 서비스를 종료하여 GPU 리소스를 해제하고, 방금 전 키 인터페이스로 돌아와 "Ctrl+C"를 눌러 학습을 종료해야 합니다.

9. "sh copy.sh"를 실행한 다음 "sh dependencies.sh"를 실행하여 ComfyUI를 시작하고 2분간 기다린 후 오른쪽의 API 주소를 엽니다.

10. 페이지가 이동한 후 "LoRA Loader"에서 학습된 모델을 선택하고, "CLIP"에 프롬프트(예: 사람이 커피를 마시고 있다)를 입력한 후 "프롬프트 단어 대기열 추가"를 클릭하여 이미지를 생성합니다.

주님, 빈센트 반 고흐의 시대가 다시 바뀌었습니다! SD 핵심 멤버들이 자체 회사를 설립했고, 첫 모델인 FLUX.1은 SD 3와 Midjourney와의 치열한 경쟁을 벌였습니다.