Command Palette
Search for a command to run...
NextStep-1: 대규모 연속 토큰을 활용한 자동회귀 이미지 생성으로 나아가기
NextStep-1: 대규모 연속 토큰을 활용한 자동회귀 이미지 생성으로 나아가기
초록
텍스트-이미지 생성을 위한 주류의 자기회귀(AR) 모델들은 일반적으로 연속적인 이미지 토큰을 처리하기 위해 계산량이 많고 부담이 큰 확산 모델에 의존하거나, 양자화 손실이 발생하는 이산 토큰을 얻기 위해 벡터 양자화(VQ)를 활용한다. 본 연구에서는 다음 단계의 토큰 예측 목적을 기반으로 이산 텍스트 토큰과 연속 이미지 토큰을 동시에 학습하는 140억 파라미터의 자기회귀 모델 NextStep-1과 1억 5700만 파라미터의 흐름 매칭 헤드를 결합하여 자기회귀 패러다임을 한층 발전시켰다. NextStep-1은 자기회귀 모델 중에서 텍스트-이미지 생성 과제에서 최고 수준의 성능을 달성하며, 고해상도 이미지 생성 능력이 뛰어나다. 더불어, 본 연구에서 제안한 방법은 이미지 편집 작업에서도 뛰어난 성능을 보여주어 통합적인 접근 방식의 강력함과 유연성을 입증한다. 연구의 투명성과 공개성을 높이기 위해, 코드와 모델은 향후 커뮤니티에 공개될 예정이다.