概要

離散型拡散モデルは、自己回帰型言語モデルに対する有力な代替手段として登場しており、最近の研究では、二モーダルな生成を目的として、ベースとなる単モーダルモデルを初期化し、微調整する手法が提案されている。本研究では、従来のアプローチとは異なり、テキスト、画像-テキスト、音声-テキストの三モーダルデータから完全に新規に事前学習を行う、世界初の三モーダルマスク付き拡散モデルを導入する。我々は、多モーダルスケーリング則、モーダル混合比、ノイズスケジュール、バッチサイズの影響を体系的に分析し、最適な推論サンプリングのデフォルト設定を提示する。特に、バッチサイズの分析から、最近の研究で報告された最適バッチサイズのチューニングを不要にする、新たな確率微分方程式（SDE）に基づく再パラメータ化手法を提案する。この再パラメータ化により、計算リソースの制約（GPUの飽和、FLOP効率、実時間）に基づいて選ばれる物理的バッチサイズと、確率的最適化における勾配のばらつきをバランスさせるために選ばれる論理的バッチサイズとを分離することができる。最後に、6.4テラトークンのデータ上で、初期の30億パラメータの三モーダルモデルを事前学習し、統一的な設計の有効性を実証するとともに、テキスト生成、テキストから画像生成、テキストから音声生成の各タスクにおいて優れた性能を達成した。本研究は、これまでにない規模で多モーダル離散型拡散モデルに関する体系的なオープン研究を実施したものであり、複数のモーダル間におけるスケーリング挙動に関する貴重な知見を提供する。

ソースPDF