3일 전

NextStep-1: 대규모 연속 토큰을 활용한 자동회귀 이미지 생성으로 나아가기

NextStep Team, Chunrui Han, Guopeng Li, Jingwei Wu, Quan Sun, Yan Cai, Yuang Peng, Zheng Ge, Deyu Zhou, Haomiao Tang, Hongyu Zhou, Kenkun Liu, Ailin Huang, Bin Wang, Changxin Miao, Deshan Sun, En Yu, Fukun Yin, Gang Yu, Hao Nie, Haoran Lv, Hanpeng Hu, Jia Wang, Jian Zhou, Jianjian Sun, Kaijun Tan, Kang An, Kangheng Lin, Liang Zhao, Mei Chen, Peng Xing, Rui Wang, Shiyu Liu, Shutao Xia, Tianhao You, Wei Ji, Xianfang Zeng, Xin Han, Xuelin Zhang, Yana Wei, Yanming Xu, Yimin Jiang, Yingming Wang, Yu Zhou, Yucheng Han, Ziyang Meng, Binxing Jiao, Daxin Jiang, Xiangyu Zhang, Yibo Zhu
NextStep-1: 대규모 연속 토큰을 활용한 자동회귀 이미지 생성으로 나아가기
초록

텍스트-이미지 생성을 위한 주류의 자기회귀(AR) 모델들은 일반적으로 연속적인 이미지 토큰을 처리하기 위해 계산량이 많고 부담이 큰 확산 모델에 의존하거나, 양자화 손실이 발생하는 이산 토큰을 얻기 위해 벡터 양자화(VQ)를 활용한다. 본 연구에서는 다음 단계의 토큰 예측 목적을 기반으로 이산 텍스트 토큰과 연속 이미지 토큰을 동시에 학습하는 140억 파라미터의 자기회귀 모델 NextStep-1과 1억 5700만 파라미터의 흐름 매칭 헤드를 결합하여 자기회귀 패러다임을 한층 발전시켰다. NextStep-1은 자기회귀 모델 중에서 텍스트-이미지 생성 과제에서 최고 수준의 성능을 달성하며, 고해상도 이미지 생성 능력이 뛰어나다. 더불어, 본 연구에서 제안한 방법은 이미지 편집 작업에서도 뛰어난 성능을 보여주어 통합적인 접근 방식의 강력함과 유연성을 입증한다. 연구의 투명성과 공개성을 높이기 위해, 코드와 모델은 향후 커뮤니티에 공개될 예정이다.

NextStep-1: 대규모 연속 토큰을 활용한 자동회귀 이미지 생성으로 나아가기 | 최신 연구 논문 | HyperAI초신경