
초록
우리는 연속 상태와 연속 시간 확산 모델을 활용하여 이산 데이터를 생성하는 간단하고 일반적인 접근법인 Bit Diffusion을 제안한다. 본 연구의 핵심 아이디어는 이산 데이터를 이진 비트로 표현한 후, 이를 실수로 취급하는 ‘아날로그 비트(Analog Bits)’로 모델링할 수 있도록 연속 확산 모델을 훈련하는 것이다. 샘플 생성 시, 모델은 먼저 아날로그 비트를 생성한 후, 이를 임계값 처리(thresholding)하여 이산 변수를 나타내는 비트로 변환한다. 더불어 샘플 품질을 크게 향상시키는 두 가지 간단한 기법인 Self-Conditioning과 Asymmetric Time Intervals를 제안한다. 비록 접근법이 단순하지만, 이는 이산 이미지 생성 및 이미지 캡셔닝(task)에서 뛰어난 성능을 달성할 수 있다. 이산 이미지 생성 측면에서, CIFAR-10(3,000개의 8비트 토큰)과 ImageNet-64x64(12,000개의 8비트 토큰)에서 기존 최고 성능을 크게 개선하였으며, FID 기준 샘플 품질과 효율성 측면에서 모두 최고의 순차적 모델(arautoregressive model)을 능가한다. 또한 MS-COCO 데이터셋에서의 이미지 캡셔닝 작업에서도 순차적 모델과 경쟁 가능한 성능을 기록하였다.