Skywork UniPic: 시각적 이해 및 생성을 위한 통합 순차 모델링

우리는 이미지 이해, 텍스트 기반 이미지 생성, 이미지 편집을 하나의 아키텍처 내에서 통합하는 15억 파라미터 규모의 순차적 생성(autoregressive) 모델인 Skywork UniPic을 소개한다. 이 모델은 각 작업에 특화된 어댑터나 모듈 간 연결 요소를 필요로 하지 않으며, 일반 하드웨어에서도 최첨단 성능을 달성할 수 있는 컴팩트한 다중모달 시스템의 가능성을 입증한다. Skywork UniPic은 GenEval 평가에서 0.86의 점수를 기록하여 기존 대부분의 통합 모델을 능가하며, DPG-Bench 복잡한 생성 과제에서 새로운 기록인 85.5를 수립했다. 이미지 편집 성능은 GEditBench-EN에서 5.83, ImgEdit-Bench에서 3.49를 기록하였으며, GPU 메모리 15GB 미만(예: RTX 4090)으로 1024×1024 해상도 이미지를 생성할 수 있다. 본 모델의 핵심 기술은 다음과 같다: (1) 합성에 사용하는 마스크된 순차적 인코더와 이해에 사용하는 SigLIP2 인코더를 분리한 전략으로, 이 둘은 공유된 순차적 디코더에 연결된다; (2) 256×256에서 1024×1024 해상도로 점진적으로 확장되는 해상도 인식형 훈련 스케줄링을 통해 동적으로 파라미터를 해제(freezing 해제)하여 성능과 안정성의 균형을 유지한다; (3) 작업 특화 보상 모델을 활용해 보강한, 총 1억 건 규모의 철저히 정제된 데이터셋을 사용하여 생성 및 편집 목표를 정밀하게 최적화한다. Skywork UniPic은 고해상도 다중모달 통합이 반드시 막대한 자원 소모를 수반하지는 않음을 입증함으로써, 실용적이고 고해상도의 다중모달 AI 구현을 위한 새로운 패러다임을 제시한다. 코드 및 모델 가중치는 공개되어 있으며, https://huggingface.co/Skywork/Skywork-UniPic-1.5B 에서 확인할 수 있다.