HyperAIHyperAI

Command Palette

Search for a command to run...

固定を越えて:拡散大規模言語モデル向け可変長ノイズ除去

Jinsong Li Xiaoyi Dong Yuhang Zang Yuhang Cao Jiaqi Wang Dahua Lin

概要

拡散型大規模言語モデル(DLLMs)は、従来の自己回帰型大規模言語モデル(LLMs)に代わる強力な代替手段として台頭しており、並列的な効率的な生成とグローバルな文脈モデリングを可能にしている。しかし、DLLMsの実用化は、生成長さを静的に事前に定義するという重要なアーキテクチャ上の制約によって阻まれている。この静的長さの割り当ては、複雑なタスクにおいて性能が著しく低下する「長さ不足」と、計算コストが大幅に増加し、場合によっては性能の劣化を引き起こす「長さ過剰」という悪影響を伴う妥協を強いている。推論フレームワークは硬直的である一方で、我々はモデル自身が、特定のタスクにおける最適な応答長さと相関する内部信号を内蔵していることを観察した。このギャップを埋めるために、これらの潜在的信号を活用し、訓練不要のノイズ除去戦略「DAEDAL」を提案する。DAEDALは、拡散型大規模言語モデルにおける動的適応的長さ拡張(Dynamic Adaptive Length Expansion)を実現する。DAEDALは2段階のプロセスで動作する。1)ノイズ除去プロセスの前段階では、DAEDALは短い初期長さから出発し、文の完成度を評価する指標に従って、反復的に長さを拡張し、粗いタスク適応的長さへと導く。2)ノイズ除去の実行中は、マスクトークンの挿入により、生成が不十分な領域を特定・拡張する動的な介入を実施し、最終出力が完全に発展した状態となることを保証する。DLLMsを対象とした広範な実験により、DAEDALは、 meticulously tuned(細かく調整された)固定長ベースラインと同等、あるいは場合によってはそれを上回る性能を達成するとともに、より高い有効トークン比を実現することで、計算効率の向上も同時に達成した。静的長さ制約を解消することで、DAEDALはDLLMsの新たな可能性を解放し、自己回帰型モデルとの間の重要なギャップを埋め、より効率的かつ強力な生成技術の実現に道を開くものである。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
固定を越えて:拡散大規模言語モデル向け可変長ノイズ除去 | 記事 | HyperAI超神経