23일 전

드림오미니2: 다중모달 지시 기반 편집 및 생성

Bin Xia Bohao Peng Yuechen Zhang Junjia Huang Jiyang Liu Jingyao Li Haoru Tan Sitong Wu Chengyao Wang Yitong Wang

초록

지침 기반 이미지 편집 및 주제 기반 생성 기술의 최근 발전은 주목받고 있으나, 두 기술 모두 실용적 사용자 요구를 충족하는 데 한계를 지니고 있다. 지침 기반 편집은 언어 지침에만 의존하기 때문에 구체적인 편집 세부 정보를 충분히 반영하지 못하는 경우가 많아 참조 이미지의 도입이 필요하다. 반면 주제 기반 생성은 구체적인 물체나 인물의 조합에 국한되어 있으며, 더 넓은 범위의 추상적 개념을 고려하지 못한다. 이러한 문제를 해결하기 위해 우리는 두 가지 새로운 작업을 제안한다: 다모달 지침 기반 편집과 생성. 이 작업들은 텍스트 및 이미지 지침을 모두 지원하며, 구체적 개념뿐 아니라 추상적 개념까지 포함하는 범위를 확장함으로써 실용적 응용 가능성을 크게 향상시킨다. 우리는 이러한 과제를 해결하기 위해 DreamOmni2를 제안하며, 주로 두 가지 핵심 도전 과제—데이터 생성 및 모델 프레임워크 설계—에 집중한다. 데이터 합성 파이프라인은 세 단계로 구성된다: (1) 추상적 개념과 구체적 개념 모두에 대해 특징 혼합 기법을 활용해 추출 데이터를 생성하고, (2) 편집 및 추출 모델을 사용하여 다모달 지침 기반 편집 학습 데이터를 생성하며, (3) 추가적으로 추출 모델을 활용해 다모달 지침 기반 편집을 위한 학습 데이터를 생성한다. 프레임워크 측면에서는 다중 이미지 입력을 처리하기 위해 인덱스 인코딩과 위치 인코딩 이동 방식을 제안하여, 모델이 각 이미지를 구분하고 픽셀 혼동을 방지할 수 있도록 한다. 또한, 복잡한 지침을 보다 효과적으로 처리하기 위해 VLM(다중모달 언어 모델)과 우리 모델의 공동 학습을 도입한다. 더불어, 이 두 가지 새로운 작업의 발전을 촉진하기 위해 종합적인 벤치마크를 제안하였다. 실험 결과 DreamOmni2는 놀라운 성능을 달성하였다. 모델 및 코드는 향후 공개될 예정이다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

드림오미니2: 다중모달 지시 기반 편집 및 생성

Bin Xia Bohao Peng Yuechen Zhang Junjia Huang Jiyang Liu Jingyao Li Haoru Tan Sitong Wu Chengyao Wang Yitong Wang3 more

초록

AI로 AI 구축

Hyper Newsletters

Bin Xia Bohao Peng Yuechen Zhang Junjia Huang Jiyang Liu Jingyao Li Haoru Tan Sitong Wu Chengyao Wang Yitong Wang