Command Palette
Search for a command to run...
Yuezhou Hu Jiaxin Guo Xinyu Feng Tuo Zhao

要約
スペキュレーティブデコード(Speculative Decoding, SD)は、小規模なドラフトモデルを用いて予測を生成し、その予測を大規模なターゲットモデルで検証することで、大規模言語モデルの推論を高速化する手法である。SDの効果は、これらのモデル間の整合性に依存しており、通常、知識蒸留(Knowledge Distillation, KD)を用いてその整合性を高める。しかし、従来のKD手法は、すべてのトークンについてドラフトモデルとターゲットモデル間のKLダイバージェンスを最小化することを目的としているが、これはSDの本質的な目的である「トークンの受容率を最大化する」ことと整合性が取れていない。その結果、能力の制約によりドラフトモデルがターゲットモデルの知識を十分に吸収できず、性能が最適化されない傾向がある。本研究では、この課題を解決するため、KDプロセスに選択的トークンフィルタリングを組み込む新規手法AdaSPECを提案する。AdaSPECは、参照モデルを用いて取り扱いが難しいトークンを特定・除外することで、単純なトークンにおいてターゲットモデルとより良好に一致するドラフトモデルの蒸留を可能にする。このアプローチにより、生成品質を損なうことなく、全体のトークン受容率を向上させることができる。AdaSPECは、算術推論、指示従属、コード生成、要約など多様なタスクにおいて、31M/1.4Bおよび350M/2.7Bパラメータ規模のモデル構成を用いて評価された。その結果、AdaSPECは最先端のDistillSpec手法を一貫して上回り、すべてのタスクでより高い受容率を達成した(最大15%の向上)。コードは公開されており、https://github.com/yuezhouhu/adaspec から入手可能である。