Command Palette
Search for a command to run...
Haoyang Zheng Xinyang Liu Cindy Xiangrui Kong Nan Jiang Zheyuan Hu Weijian Luo Wei Deng Guang Lin

要約
AI時代における人々が目指す究極の課題は、高速かつ高品質な言語生成である。本研究では、事前学習済み(マスク付き)離散拡散言語モデル(dLLM)を初期状態として用い、数ステップの学生モデルに知識を蒸留する学習ベースの手法、すなわち「離散拡散ダイバージェンスインストラクト(DiDi-Instruct)」を提案する。得られたDiDi-Instructモデルは、dLLMの教師モデルやGPT-2ベースラインと同等あるいはそれ以上の性能を達成しつつ、最大64倍の高速化を実現している。DiDi-Instructの理論的基盤は、積分KLダイバージェンス最小化に基づく新たなフレームワークであり、これを実用的な学習アルゴリズムへと具体化している。さらに、グループ化報酬正規化、中間状態一致、報酬誘導型祖先サンプラーの導入により、学習の安定性、モデルのカバレッジ、推論品質が大幅に向上している。OpenWebTextデータセットにおける実験では、DiDi-Instructは8回のノン・ファンクショナルエバリュエーション(NFE)で perplexity 62.2、128 NFEでは18.4を達成し、従来の高速化されたdLLMおよびGPT-2ベースラインを上回っている。これらの性能向上は、エントロピー損失が極めて小さく(約 )、競合するdLLM蒸留手法と比較して追加の学習実行時間(wall-clock time)を大幅に削減するという利点を伴っている。さらに、広範なアブレーション研究、モデルスケーリング、離散タンパク質配列の生成を通じて、DiDi-Instructの堅牢性と有効性を検証した。結論として、DiDi-Instructは効率的かつ効果的な蒸留手法であり、言語生成を一瞬のうちに実現可能にする。