
要約
我々は、連続的な状態と連続時間を持つ拡散モデルを用いて離散データを生成するシンプルかつ汎用的な手法「Bit Diffusion」を提案する。本手法の基本的なアイデアは、まず離散データを2進ビットとして表現し、その後、これらのビットを実数として扱う「アナログビット」と呼ぶように、連続的な拡散モデルを学習させることである。サンプル生成の際には、まずモデルがアナログビットを生成し、その後しきい値処理(thresholding)を施して離散変数を表すビットを取得する。さらに、サンプル品質を著しく向上させる2つのシンプルな技術——「自己条件付き学習(Self-Conditioning)」と「非対称時間間隔(Asymmetric Time Intervals)」——を提案する。この手法は構造的に単純であるにもかかわらず、離散画像生成および画像キャプション生成の両タスクにおいて優れた性能を発揮する。離散画像生成においては、CIFAR-10(3,000個の8ビット離散トークン)およびImageNet-64x64(12,000個の8ビット離散トークン)の両データセットにおいて、従来の最先端手法を大幅に上回り、FIDスコアで測定されるサンプル品質および生成効率の両面で、最良の自己回帰モデルをも凌駕している。また、MS-COCOデータセットにおける画像キャプション生成タスクにおいても、自己回帰モデルと比較して競争力のある結果を達成している。