HyperAIHyperAI

Command Palette

Search for a command to run...

OmniGen2: 고급 멀티모달 생성 탐색

날짜

일 년 전

논문 URL

2506.18871

라이선스

Apache 2.0

GPU 컴퓨팅 에어드롭

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)
지금 사용하기

1. 튜토리얼 소개

짓다

OmniGen2는 베이징 인공지능 연구원(BAAI)에서 2025년 6월 16일에 공개한 오픈 소스 멀티모달 생성 모델입니다. 텍스트-이미지 생성, 이미지 편집, 컨텍스트 생성 등 다양한 생성 작업을 위한 통합 솔루션을 제공하는 것을 목표로 합니다. OmniGen v1과 달리 OmniGen2는 텍스트와 이미지 모달리티에 대해 두 개의 독립적인 디코딩 경로를 설계하고, 공유되지 않는 파라미터와 별도의 이미지 분할기를 사용합니다. 이러한 설계 덕분에 OmniGen2는 기존의 멀티모달 이해 모델을 기반으로 구축할 수 있으며, VAE 입력에 맞게 재적응할 필요 없이 기존의 텍스트 생성 기능을 그대로 유지할 수 있습니다. 핵심 혁신은 이중 경로 아키텍처와 자기 성찰 메커니즘에 있으며, 이는 현재 오픈 소스 멀티모달 모델의 새로운 기준을 제시합니다. 관련 연구 논문은 검색 가능합니다. OmniGen2: 탐색부터 고급 멀티모달 생성까지 .

이 튜토리얼의 컴퓨팅 리소스는 단일 RTX A6000 카드를 사용하며, 현재로서는 영어 프롬프트가 더 효과적입니다.

2. 효과 표시

OmniGen2의 효과에 대한 몇 가지 예:

OmniGen2 이미지 편집 기능 데모
OmniGen2 컨텍스트 생성 기능 데모

3. 작업 단계

1. 컨테이너를 시작하세요

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

첫 번째 예는 이미지 설명이고, 두 번째와 세 번째 예는 시각화 이미지이고, 나머지 예는 이미지 편집입니다.

구체적인 매개변수:

  • 키: 키.
  • 너비: 너비.
  • 텍스트 안내 척도: 텍스트 안내 척도.
  • 이미지 유도 척도: 이미지 유도 척도.
  • CFG 범위 시작: 범위 시작.
  • CFG 범위 종료: 범위 종료.
  • 스케줄러: 스케줄러.
  • 추론 단계: 추론 단계.
  • 프롬프트당 이미지 수: 프롬프트당 이미지 수.
  • 씨앗: 씨앗.
  • max_input_image_side_length: 최대 입력 이미지 측면 길이.
  • max_pixels: 최대 픽셀.

결과

4. 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@article{wu2025omnigen2,
  title={OmniGen2: Exploration to Advanced Multimodal Generation},
  author={Chenyuan Wu and Pengfei Zheng and Ruiran Yan and Shitao Xiao and Xin Luo and Yueze Wang and Wanli Li and Xiyan Jiang and Yexin Liu and Junjie Zhou and Ze Liu and Ziyi Xia and Chaofan Li and Haoge Deng and Jiahao Wang and Kun Luo and Bo Zhang and Defu Lian and Xinlong Wang and Zhongyuan Wang and Tiejun Huang and Zheng Liu},
  journal={arXiv preprint arXiv:2506.18871},
  year={2025}
}

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp