Discord에서 논의하기

9달 전

텍스트에서 이미지 생성

이미지 생성

NextStep Team Chunrui Han Guopeng Li Jingwei Wu Quan Sun Yan Cai Yuang Peng Zheng Ge Deyu Zhou Haomiao Tang

초록

텍스트-이미지 생성을 위한 주류의 자기회귀(AR) 모델들은 일반적으로 연속적인 이미지 토큰을 처리하기 위해 계산량이 많고 부담이 큰 확산 모델에 의존하거나, 양자화 손실이 발생하는 이산 토큰을 얻기 위해 벡터 양자화(VQ)를 활용한다. 본 연구에서는 다음 단계의 토큰 예측 목적을 기반으로 이산 텍스트 토큰과 연속 이미지 토큰을 동시에 학습하는 140억 파라미터의 자기회귀 모델 NextStep-1과 1억 5700만 파라미터의 흐름 매칭 헤드를 결합하여 자기회귀 패러다임을 한층 발전시켰다. NextStep-1은 자기회귀 모델 중에서 텍스트-이미지 생성 과제에서 최고 수준의 성능을 달성하며, 고해상도 이미지 생성 능력이 뛰어나다. 더불어, 본 연구에서 제안한 방법은 이미지 편집 작업에서도 뛰어난 성능을 보여주어 통합적인 접근 방식의 강력함과 유연성을 입증한다. 연구의 투명성과 공개성을 높이기 위해, 코드와 모델은 향후 커뮤니티에 공개될 예정이다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

9달 전

텍스트에서 이미지 생성

이미지 생성

NextStep Team Chunrui Han Guopeng Li Jingwei Wu Quan Sun Yan Cai Yuang Peng Zheng Ge Deyu Zhou Haomiao Tang

초록

텍스트-이미지 생성을 위한 주류의 자기회귀(AR) 모델들은 일반적으로 연속적인 이미지 토큰을 처리하기 위해 계산량이 많고 부담이 큰 확산 모델에 의존하거나, 양자화 손실이 발생하는 이산 토큰을 얻기 위해 벡터 양자화(VQ)를 활용한다. 본 연구에서는 다음 단계의 토큰 예측 목적을 기반으로 이산 텍스트 토큰과 연속 이미지 토큰을 동시에 학습하는 140억 파라미터의 자기회귀 모델 NextStep-1과 1억 5700만 파라미터의 흐름 매칭 헤드를 결합하여 자기회귀 패러다임을 한층 발전시켰다. NextStep-1은 자기회귀 모델 중에서 텍스트-이미지 생성 과제에서 최고 수준의 성능을 달성하며, 고해상도 이미지 생성 능력이 뛰어나다. 더불어, 본 연구에서 제안한 방법은 이미지 편집 작업에서도 뛰어난 성능을 보여주어 통합적인 접근 방식의 강력함과 유연성을 입증한다. 연구의 투명성과 공개성을 높이기 위해, 코드와 모델은 향후 커뮤니티에 공개될 예정이다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

NextStep-1: 대규모 연속 토큰을 활용한 자동회귀 이미지 생성으로 나아가기 | 문서 | HyperAI초신경