9日前

AdaSPEC：効率的な推測デコーダーのための選択的知識蒸留

Yuezhou Hu Jiaxin Guo Xinyu Feng Tuo Zhao

要約

スペキュレーティブデコード（Speculative Decoding, SD）は、小規模なドラフトモデルを用いて予測を生成し、その予測を大規模なターゲットモデルで検証することで、大規模言語モデルの推論を高速化する手法である。SDの効果は、これらのモデル間の整合性に依存しており、通常、知識蒸留（Knowledge Distillation, KD）を用いてその整合性を高める。しかし、従来のKD手法は、すべてのトークンについてドラフトモデルとターゲットモデル間のKLダイバージェンスを最小化することを目的としているが、これはSDの本質的な目的である「トークンの受容率を最大化する」ことと整合性が取れていない。その結果、能力の制約によりドラフトモデルがターゲットモデルの知識を十分に吸収できず、性能が最適化されない傾向がある。本研究では、この課題を解決するため、KDプロセスに選択的トークンフィルタリングを組み込む新規手法AdaSPECを提案する。AdaSPECは、参照モデルを用いて取り扱いが難しいトークンを特定・除外することで、単純なトークンにおいてターゲットモデルとより良好に一致するドラフトモデルの蒸留を可能にする。このアプローチにより、生成品質を損なうことなく、全体のトークン受容率を向上させることができる。AdaSPECは、算術推論、指示従属、コード生成、要約など多様なタスクにおいて、31M/1.4Bおよび350M/2.7Bパラメータ規模のモデル構成を用いて評価された。その結果、AdaSPECは最先端のDistillSpec手法を一貫して上回り、すべてのタスクでより高い受容率を達成した（最大15%の向上）。コードは公開されており、https://github.com/yuezhouhu/adaspec から入手可能である。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

AdaSPEC：効率的な推測デコーダーのための選択的知識蒸留

Yuezhou Hu Jiaxin Guo Xinyu Feng Tuo Zhao

要約

AI で AI を構築

Hyper Newsletters