
초록
우리는 유한 어휘집에서의 이산 토큰 대신 실수 값을 갖는 벡터 시퀀스를 생성하는 Generative Infinite-Vocabulary Transformers(GIVT)를 소개한다. 이를 위해 디코더 전용 트랜스포머에 놀라울 정도로 단순한 두 가지 수정을 제안한다: 1) 입력 단계에서 유한 어휘집에 대한 검색 테이블 대신 입력 벡터의 선형 투영을 사용하고, 2) 출력 단계에서 일반적으로 범주형 분포로 매핑되는 로짓 예측 대신 다변량 가우시안 혼합 모델(Gaussian Mixture Model, GMM)의 파라미터를 예측한다. VQ-GAN과 MaskGIT의 이미지 생성 파라다임에서 영감을 받아, VQ-VAE의 이산 잠재 시퀀스를 모델링하는 데 트랜스포머를 사용하는 방식과 유사하게, GIVT는 $β$-VAE의 양자화되지 않은 실수 값 잠재 시퀀스를 모델링하는 데 활용한다. 클래스 조건부 이미지 생성에서 GIVT는 VQ-GAN(및 개선된 변형들)과 MaskGIT를 모두 능가하며, 최근의 잠재 공간에서의 확산 모델과 경쟁 가능한 성능을 달성한다. 마지막으로, UViM 프레임워크의 VAE 변형을 활용하여 GIVT를 팬토픽 세그멘테이션과 깊이 추정에 적용했을 때도 강력한 성과를 얻었다.