HyperAI초신경

OmniGen2: 고급 멀티모달 생성 탐색

1. 튜토리얼 소개

짓다

OmniGen2는 베이징 인공지능 아카데미(BAAI)가 2025년 6월 16일 발표한 오픈소스 멀티모달 생성 모델입니다. 텍스트-이미지 생성, 이미지 편집, 컨텍스트 생성 등 다양한 생성 작업을 위한 통합 솔루션을 제공하는 것을 목표로 합니다. OmniGen v1과 달리, OmniGen2는 비공유 매개변수와 별도의 이미지 분할기를 사용하여 텍스트 및 이미지 모달리티에 대해 두 개의 독립적인 디코딩 경로를 설계합니다. 이러한 설계를 통해 OmniGen2는 VAE 입력을 재조정하지 않고도 기존 멀티모달 이해 모델을 기반으로 구축할 수 있으므로, 원본 텍스트 생성 기능을 그대로 유지할 수 있습니다. 핵심 혁신은 이중 경로 아키텍처와 자가 반영 메커니즘에 있으며, 이는 현재 오픈소스 멀티모달 모델의 새로운 기준이 되었습니다. 관련 논문 결과는 다음과 같습니다.OmniGen2: 탐색부터 고급 멀티모달 생성까지".

이 튜토리얼의 컴퓨팅 리소스는 단일 RTX A6000 카드를 사용하며, 현재로서는 영어 프롬프트가 더 효과적입니다.

2. 효과 표시

OmniGen2의 효과에 대한 몇 가지 예:

OmniGen2 이미지 편집 기능 데모
OmniGen2 컨텍스트 생성 기능 데모

3. 작업 단계

1. 컨테이너를 시작하세요

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

첫 번째 예는 이미지 설명이고, 두 번째와 세 번째 예는 시각화 이미지이고, 나머지 예는 이미지 편집입니다.

구체적인 매개변수:

  • 키: 키.
  • 너비: 너비.
  • 텍스트 안내 척도: 텍스트 안내 척도.
  • 이미지 유도 척도: 이미지 유도 척도.
  • CFG 범위 시작: 범위 시작.
  • CFG 범위 종료: 범위 종료.
  • 스케줄러: 스케줄러.
  • 추론 단계: 추론 단계.
  • 프롬프트당 이미지 수: 프롬프트당 이미지 수.
  • 씨앗: 씨앗.
  • max_input_image_side_length: 최대 입력 이미지 측면 길이.
  • max_pixels: 최대 픽셀.

결과

4. 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@article{wu2025omnigen2,
  title={OmniGen2: Exploration to Advanced Multimodal Generation},
  author={Chenyuan Wu and Pengfei Zheng and Ruiran Yan and Shitao Xiao and Xin Luo and Yueze Wang and Wanli Li and Xiyan Jiang and Yexin Liu and Junjie Zhou and Ze Liu and Ziyi Xia and Chaofan Li and Haoge Deng and Jiahao Wang and Kun Luo and Bo Zhang and Defu Lian and Xinlong Wang and Zhongyuan Wang and Tiejun Huang and Zheng Liu},
  journal={arXiv preprint arXiv:2506.18871},
  year={2025}
}