Discord에서 논의하기

6달 전

텍스트에서 이미지 생성

이미지 생성

Minglei Shi Haolin Wang Borui Zhang Wenzhao Zheng Bohan Zeng Ziyang Yuan Xiaoshi Wu Yuanxing Zhang Huan Yang Xintao Wang

초록

시각 기반 모델(VFM, Visual Foundation Model) 표현을 기반으로 한 시각 생성은 시각적 이해, 인지 및 생성을 통합하는 매우 유망한 통합적 접근법을 제공한다. 이러한 잠재력을 고려할 때, 대규모 텍스트-이미지 확산 모델을 완전히 VFM 표현 공간 내에서 학습하는 것은 여전히 거의 탐색되지 않은 영역이다. 이 격차를 메우기 위해 우리는 SVG(Self-supervised representations for Visual Generation) 프레임워크를 확장하여, VFM 특징 도메인에서 직접 고품질의 텍스트-이미지 생성을 지원하는 SVG-T2I를 제안한다. 표준 텍스트-이미지 확산 파이프라인을 활용함으로써 SVG-T2I는 경쟁 가능한 성능을 달성하였으며, GenEval에서는 0.75, DPG-Bench에서는 85.78의 점수를 기록하였다. 이 성능은 VFM이 생성 작업에 있어 내재된 강력한 표현 능력을 지닌다는 것을 입증한다. 본 연구는 인코더-디코더 구조의 오토인코더와 생성 모델을 포함하여, 학습, 추론, 평가 파이프라인 및 사전 학습된 가중치까지 포함한 모든 코드와 모델을 완전히 오픈소스로 공개함으로써, 표현 중심의 시각 생성 분야에서의 추가적인 연구를 촉진하고자 한다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

6달 전

텍스트에서 이미지 생성

이미지 생성

Minglei Shi Haolin Wang Borui Zhang Wenzhao Zheng Bohan Zeng Ziyang Yuan Xiaoshi Wu Yuanxing Zhang Huan Yang Xintao Wang

초록

시각 기반 모델(VFM, Visual Foundation Model) 표현을 기반으로 한 시각 생성은 시각적 이해, 인지 및 생성을 통합하는 매우 유망한 통합적 접근법을 제공한다. 이러한 잠재력을 고려할 때, 대규모 텍스트-이미지 확산 모델을 완전히 VFM 표현 공간 내에서 학습하는 것은 여전히 거의 탐색되지 않은 영역이다. 이 격차를 메우기 위해 우리는 SVG(Self-supervised representations for Visual Generation) 프레임워크를 확장하여, VFM 특징 도메인에서 직접 고품질의 텍스트-이미지 생성을 지원하는 SVG-T2I를 제안한다. 표준 텍스트-이미지 확산 파이프라인을 활용함으로써 SVG-T2I는 경쟁 가능한 성능을 달성하였으며, GenEval에서는 0.75, DPG-Bench에서는 85.78의 점수를 기록하였다. 이 성능은 VFM이 생성 작업에 있어 내재된 강력한 표현 능력을 지닌다는 것을 입증한다. 본 연구는 인코더-디코더 구조의 오토인코더와 생성 모델을 포함하여, 학습, 추론, 평가 파이프라인 및 사전 학습된 가중치까지 포함한 모든 코드와 모델을 완전히 오픈소스로 공개함으로써, 표현 중심의 시각 생성 분야에서의 추가적인 연구를 촉진하고자 한다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

SVG-T2I: 변분 오토인코더 없이 텍스트-이미지 잠재 확산 모델의 규모 확장 | 문서 | HyperAI초신경