11日前

時刻は特徴である：拡散言語モデルにおける時系列ダイナミクスの活用

Wen Wang, Bozhen Fang, Chenchen Jing, Yongliang Shen, Yangyi Shen, Qiuyu Wang, Hao Ouyang, Hao Chen, Chunhua Shen

要約

拡散型大規模言語モデル（dLLMs）は反復的なノイズ除去によってテキストを生成するが、現在のデコード戦略は最終出力に注目し、中間段階での豊かな予測情報を無視している。本研究では、正しい答えが中間段階でしばしば出現するにもかかわらず、後続のノイズ除去ステップで上書きされてしまうという、重要な現象である「時間的振動（temporal oscillation）」を明らかにした。この問題に対処するため、時間的一貫性を活用する二つの補完的な手法を提案する。第一に、訓練不要でテスト時のみに適用可能な「時間的自己一貫性投票（Temporal Self-Consistency Voting）」というデコード戦略を導入し、ノイズ除去の各ステップにおける予測を統合して、最も一貫性の高い出力を選択する。第二に、「時間的一貫性強化（Temporal Consistency Reinforcement）」と呼ばれる後学習手法を提案し、中間予測における意味的安定性を測る指標である「時間的意味エントロピー（Temporal Semantic Entropy: TSE）」を報酬信号として用いて、安定した生成を促進する。複数のベンチマークにおける実証結果から、本手法の有効性を確認した。TSEの負の報酬のみを用いても、既存のdLLMと比較して「Countdown」データセットで平均24.7%の顕著な性能向上が得られた。さらに精度報酬と組み合わせることで、GSM8Kで2.0%、MATH500で4.3%、SVAMPで6.6%、Countdownで25.3%の絶対的改善が達成された。本研究の結果は、dLLMsにおける時間的ダイナミクスの未開拓な潜在力を示しており、その活用を可能にするシンプルかつ効果的なツールを2つ提供するものである。