Command Palette
Search for a command to run...
SVG-T2I: 변분 오토인코더 없이 텍스트-이미지 잠재 확산 모델의 규모 확장
SVG-T2I: 변분 오토인코더 없이 텍스트-이미지 잠재 확산 모델의 규모 확장
초록
시각 기반 모델(VFM, Visual Foundation Model) 표현을 기반으로 한 시각 생성은 시각적 이해, 인지 및 생성을 통합하는 매우 유망한 통합적 접근법을 제공한다. 이러한 잠재력을 고려할 때, 대규모 텍스트-이미지 확산 모델을 완전히 VFM 표현 공간 내에서 학습하는 것은 여전히 거의 탐색되지 않은 영역이다. 이 격차를 메우기 위해 우리는 SVG(Self-supervised representations for Visual Generation) 프레임워크를 확장하여, VFM 특징 도메인에서 직접 고품질의 텍스트-이미지 생성을 지원하는 SVG-T2I를 제안한다. 표준 텍스트-이미지 확산 파이프라인을 활용함으로써 SVG-T2I는 경쟁 가능한 성능을 달성하였으며, GenEval에서는 0.75, DPG-Bench에서는 85.78의 점수를 기록하였다. 이 성능은 VFM이 생성 작업에 있어 내재된 강력한 표현 능력을 지닌다는 것을 입증한다. 본 연구는 인코더-디코더 구조의 오토인코더와 생성 모델을 포함하여, 학습, 추론, 평가 파이프라인 및 사전 학습된 가중치까지 포함한 모든 코드와 모델을 완전히 오픈소스로 공개함으로써, 표현 중심의 시각 생성 분야에서의 추가적인 연구를 촉진하고자 한다.