18일 전

Skywork UniPic: 시각적 이해 및 생성을 위한 통합 순차 모델링

Peiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou
Skywork UniPic: 시각적 이해 및 생성을 위한 통합 순차 모델링
초록

우리는 이미지 이해, 텍스트 기반 이미지 생성, 이미지 편집을 하나의 아키텍처 내에서 통합하는 15억 파라미터 규모의 순차적 생성(autoregressive) 모델인 Skywork UniPic을 소개한다. 이 모델은 각 작업에 특화된 어댑터나 모듈 간 연결 요소를 필요로 하지 않으며, 일반 하드웨어에서도 최첨단 성능을 달성할 수 있는 컴팩트한 다중모달 시스템의 가능성을 입증한다. Skywork UniPic은 GenEval 평가에서 0.86의 점수를 기록하여 기존 대부분의 통합 모델을 능가하며, DPG-Bench 복잡한 생성 과제에서 새로운 기록인 85.5를 수립했다. 이미지 편집 성능은 GEditBench-EN에서 5.83, ImgEdit-Bench에서 3.49를 기록하였으며, GPU 메모리 15GB 미만(예: RTX 4090)으로 1024×1024 해상도 이미지를 생성할 수 있다. 본 모델의 핵심 기술은 다음과 같다: (1) 합성에 사용하는 마스크된 순차적 인코더와 이해에 사용하는 SigLIP2 인코더를 분리한 전략으로, 이 둘은 공유된 순차적 디코더에 연결된다; (2) 256×256에서 1024×1024 해상도로 점진적으로 확장되는 해상도 인식형 훈련 스케줄링을 통해 동적으로 파라미터를 해제(freezing 해제)하여 성능과 안정성의 균형을 유지한다; (3) 작업 특화 보상 모델을 활용해 보강한, 총 1억 건 규모의 철저히 정제된 데이터셋을 사용하여 생성 및 편집 목표를 정밀하게 최적화한다. Skywork UniPic은 고해상도 다중모달 통합이 반드시 막대한 자원 소모를 수반하지는 않음을 입증함으로써, 실용적이고 고해상도의 다중모달 AI 구현을 위한 새로운 패러다임을 제시한다. 코드 및 모델 가중치는 공개되어 있으며, https://huggingface.co/Skywork/Skywork-UniPic-1.5B 에서 확인할 수 있다.