HyperAIHyperAI

Command Palette

Search for a command to run...

SVG-T2I: 변분 오토인코더 없이 텍스트-이미지 잠재 확산 모델의 규모 확장

초록

시각 기반 모델(VFM, Visual Foundation Model) 표현을 기반으로 한 시각 생성은 시각적 이해, 인지 및 생성을 통합하는 매우 유망한 통합적 접근법을 제공한다. 이러한 잠재력을 고려할 때, 대규모 텍스트-이미지 확산 모델을 완전히 VFM 표현 공간 내에서 학습하는 것은 여전히 거의 탐색되지 않은 영역이다. 이 격차를 메우기 위해 우리는 SVG(Self-supervised representations for Visual Generation) 프레임워크를 확장하여, VFM 특징 도메인에서 직접 고품질의 텍스트-이미지 생성을 지원하는 SVG-T2I를 제안한다. 표준 텍스트-이미지 확산 파이프라인을 활용함으로써 SVG-T2I는 경쟁 가능한 성능을 달성하였으며, GenEval에서는 0.75, DPG-Bench에서는 85.78의 점수를 기록하였다. 이 성능은 VFM이 생성 작업에 있어 내재된 강력한 표현 능력을 지닌다는 것을 입증한다. 본 연구는 인코더-디코더 구조의 오토인코더와 생성 모델을 포함하여, 학습, 추론, 평가 파이프라인 및 사전 학습된 가중치까지 포함한 모든 코드와 모델을 완전히 오픈소스로 공개함으로써, 표현 중심의 시각 생성 분야에서의 추가적인 연구를 촉진하고자 한다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
SVG-T2I: 변분 오토인코더 없이 텍스트-이미지 잠재 확산 모델의 규모 확장 | 문서 | HyperAI초신경