HyperAI초신경

OminiControl 다기능 이미지 생성 및 제어

오미니컨트롤
GitHub 스타
GitHub 라이센스
아르시브

1. 튜토리얼 소개

OminiControl은 싱가포르 국립대학교 XML 연구실에서 2024년 12월에 출시한 최소한이지만 강력한 일반 제어 프레임워크로, FLUX와 같은 확산 변압기 모델에 적합합니다. FLUX 모델을 사용하여 모든 제어 작업(3D, 다중 보기, 제스처 안내 등)을 사용자 지정하여 고유한 OminiControl 모델을 만들 수 있습니다. 관련 논문 결과는 다음과 같습니다.OminiControl: 확산 변압기를 위한 최소 및 범용 제어".

유니버설 컨트롤 🌐 : 에이전트 기반 제어와 공간 제어(예: 에지 가이드 및 페인팅 내 생성)를 모두 지원하는 통합 제어 프레임워크입니다.

미니멀한 디자인 🚀 : 원래 모델 구조를 유지하면서 제어 신호를 주입합니다. 기본 모델에 0.1%의 추가 매개변수만 도입되었습니다.

이 튜토리얼은 OminiControl 일반 제어 프레임워크를 기반으로 하며 테마 기반 이미지 생성 및 공간 제어를 구현합니다. 컴퓨팅 파워 리소스는 단일 카드 A6000을 사용합니다.

효과 예시

1. 테마 중심 생성

데모(왼쪽: 조건부 이미지, 오른쪽: 생성된 이미지)

텍스트 프롬프트 단어

  • 팁 1:해당 품목을 보여주는 클로즈업입니다. 어두운 방을 배경으로 나무 테이블 위에 TV가 켜져 있고, 화면에는 요리 프로그램이 나오고, "오미니 컨트롤!"이라는 글자가 적혀 있습니다.
  • 힌트 2:영화 스타일의 샷. 달 표면에서는 물체의 몸체에 "오미니"라는 단어가 적힌 깃발을 달고 달 표면 위로 이동했습니다. 배경에는 전경을 차지하는 거대한 지구본이 있습니다.
  • 힌트 3:바우하우스 스타일의 방에서는 반짝이는 유리 테이블 위에 물건들이 놓여 있고, 그 옆에는 꽃병에 꽃이 가득 꽂혀 있습니다. 오후 햇살에 블라인드의 그림자가 벽에 드리워졌습니다.
  • 힌트 4:한 여성이 해변에서 "오미니" 우산 아래에 앉아 이 셔츠를 입고 얼굴에 큰 미소를 지으며 서핑보드를 뒤에 두고 있는 모습이 포착되었습니다. 배경은 일몰 무렵의 주황빛-보라색 하늘입니다.

2. 공간 정렬 제어

이미지 인페인팅(왼쪽: 원본 이미지, 가운데: 마스크 이미지, 오른쪽: 채우기 결과)

  • 팁:모나리자는 "오미니"라는 단어가 인쇄된 흰색 VR 헤드셋을 착용하고 있습니다.
  • 팁:노란색 책 표지에는 "OMINI"라는 단어가 큰 글씨로 인쇄되어 있고, 아래쪽에는 "FLUX를 위해"라는 텍스트가 나와 있습니다.

2. 작업 단계

"모델"이 표시되지 않으면 모델이 초기화되고 있음을 의미합니다. 모델이 크기 때문에 1~2분 정도 기다리신 후 페이지를 새로고침해 주세요.

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 웹페이지 접속 후 테마 기반 생성(Subject)과 공간 제어(Spatial)를 경험하실 수 있습니다.

참고: 두 모델 간 전환에는 약 30~70초가 소요됩니다. 잠시만 기다려 주세요.

테마 기반 생성:  사용자는 대상 물체의 사진과 해당 물체가 위치한 대상 장면에 대한 텍스트 설명을 제공하여 테마 기반 생성을 완료할 수 있습니다.

공간 제어:  여기에는 이미지 복원 및 캐니와 같은 작업이 포함됩니다. 사용자는 객체의 사진과 객체의 변화에 대한 텍스트 설명을 제공하여 이미지의 공간적 제어를 완료합니다. 

주제 중심 생성 효과(주제) 

공간 제어 - 이미지 복원 효과(공간) 

인용 정보

GitHub 사용자에게 감사드립니다 슈퍼양  이 튜토리얼 제작을 위한 프로젝트 참조 정보는 다음과 같습니다.

@article{tan2024ominicontrol,
  title={Ominicontrol: Minimal and universal control for diffusion transformer},
  author={Tan, Zhenxiong and Liu, Songhua and Yang, Xingyi and Xue, Qiaochu and Wang, Xinchao},
  journal={arXiv preprint arXiv:2411.15098},
  volume={3},
  year={2024}
}

교류 및 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓