HyperAI초신경
15일 전

OmniGen2: 고급 다중 모드 생성 탐색

Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu
OmniGen2: 고급 다중 모드 생성 탐색
초록

본 연구에서는 다양한 생성 작업을 위한 통합 솔루션을 제공하도록 설계된 다목적이고 오픈 소스의 생성 모델 OmniGen2를 소개합니다. 이는 텍스트-이미지 변환, 이미지 편집, 그리고 문맥 내 생성 등의 작업을 포함합니다. OmniGen v1과 달리, OmniGen2는 텍스트와 이미지 모드에 대해 두 가지 다른 디코딩 경로를 특징으로 하며, 공유되지 않은 매개변수와 분리된 이미지 토크나이저를 사용합니다. 이러한 설계는 VAE 입력을 다시 적응할 필요 없이 기존의 다중 모달 이해 모델 위에서 OmniGen2를 구축할 수 있게 하여 원래의 텍스트 생성 능력을 유지시킵니다.OmniGen2의 학습을 지원하기 위해, 우리는 이미지 편집과 문맥 내 생성 데이터를 포함하는 포괄적인 데이터 구성 파이프라인을 개발했습니다. 또한, 이미지 생성 작업에 맞춤화된 반사 메커니즘을 도입하고, 이를 바탕으로 OmniGen2 전용의 반사 데이터셋을 구성했습니다. 비교적 적은 매개변수 크기에도 불구하고, OmniGen2는 여러 작업 벤치마크에서 경쟁력 있는 결과를 달성하였으며, 이는 텍스트-이미지 변환 및 이미지 편집 등에서 확인되었습니다.문맥 내 생성, 즉 주제 주도형 작업의 평가를 위해 새로운 벤치마크인 OmniContext를 제안합니다. OmniGen2는 일관성 측면에서 오픈 소스 모델 중 최고 성능을 보였습니다. 본 연구의 후속 연구를 지원하기 위해, 우리는 우리의 모델, 학습 코드, 데이터셋 및 데이터 구성 파이프라인을 공개할 예정입니다.프로젝트 페이지: https://vectorspacelab.github.io/OmniGen2; GitHub 링크: https://github.com/VectorSpaceLab/OmniGen2