효과 예시

1. 튜토리얼 소개

InfiniteYou는 InfU로 줄여서 부르며, ByteDance의 지능형 창작팀이 2025년에 출시한 Diffusion Transformers(FLUX 등)를 기반으로 한 신원 보존 이미지 생성 프레임워크입니다. 첨단 기술을 통해 이미지를 생성하는 동안 개인의 신원 일관성을 유지하여 신원 유사성, 텍스트-이미지 정렬 및 생성 품질 측면에서 기존 방식의 단점을 해결합니다.

InfU는 확산 변환기(DiT)를 활용하는 이 분야에서 가장 초기의 견고한 프레임워크 중 하나로, 기존 방법의 세 가지 핵심 문제, 즉 동일성 유사성 부족, 이미지-텍스트 정렬 편향, 생성 품질 및 미적 성능 저하를 체계적으로 해결합니다. 핵심 혁신 기술인 InfuseNet은 잔여 연결을 통해 DiT 기반 모델에 ID 기능을 주입하여 생성 기능을 유지하면서도 ID 충실도를 크게 향상시킵니다. 사전 학습과 합성된 단일-개인 다중 샘플(SPMS) 데이터를 이용한 지도 미세 조정(SFT)을 포함하는 다단계 학습 전략을 채택하여 이미지-텍스트 정렬을 더욱 최적화하고, 생성 품질을 개선하며, 얼굴 중복 효과를 효과적으로 완화합니다. 광범위한 실험 결과, InfU는 최첨단 성능을 달성하고 모든 측면에서 기존 기준 방법보다 우수한 것으로 나타났습니다. 플러그 앤 플레이 설계로 다양한 기존 방법과의 호환성을 보장하여 학계에 중요한 기술적 기여를 제공합니다.

이 튜토리얼에서는 InfiniteYou-FLUX v1.0을 데모로 사용하고, 컴퓨팅 파워 리소스는 A6000입니다.

튜토리얼에서는 2가지 모델 버전을 제공합니다.

InfiniteYou 버전	모델 버전	훈련에 사용된 기본 모델	특징
InfiniteYou-FLUX v1.0	aes_stage2	FLUX.1-dev	지도 미세 조정(SFT) 후 2단계 모델은 더 나은 이미지-텍스트 정렬 및 미적 성능을 보입니다.
InfiniteYou-FLUX v1.0	심_스테이지1	FLUX.1-dev	감독 미세 조정 전 첫 번째 단계 모델은 더 높은 신원 기능 유사성을 제공합니다.

2. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

"모델"이 표시되지 않으면 모델이 초기화되고 있음을 의미합니다. 모델이 크기 때문에 1~2분 정도 기다리신 후 페이지를 새로고침해 주세요.

2. 웹사이트에 접속하시면 바로 이용이 가능합니다.

❗️중요 사용 팁:

모델 버전: 기본 사용 aes_stage2 더 나은 이미지와 텍스트 정렬 및 미적 효과를 얻으세요. 더 높은 ID 유사도를 위해 다음을 시도하세요. sim_stage1 .
유용한 하이퍼파라미터: 일반적으로 더 이상의 조정은 필요하지 않습니다. 필요하다면 조금 더 큰 것을 시도하세요 --infusenet_guidance_start(예를 들어 0.1)(오른쪽 sim_stage1 특히 효과적입니다). 효과가 만족스럽지 않다면 조금 더 작은 사이즈를 시도해보세요. --infusenet_conditioning_scale(예를 들어 0.9).
선택적 LoRA:realism(현실적인) 그리고 anti-blur(흐림 방지). 해당 상자를 체크하여 활성화하세요. 이는 선택적인 기능이므로 본 논문에서는 사용되지 않았습니다.
성별 팁: 생성된 성별이 예상과 다르다면, 텍스트 프롬프트에 "남자", "여자" 등과 같은 특정 단어를 추가하세요. 이 프로젝트에서는 포용적이고 존중하는 언어 사용을 장려합니다.

사용 방법

교류 및 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓