2ヶ月前

推論ベクトル：タスクアリスメティックを用いたチェーン・オブ・シンキング能力の転移

Mohammad Zbeeb Hasan Abed Al Kader Hammoud Bernard Ghanem

要約

大規模言語モデルは、複雑な推論タスクを習得するため、強化学習を含む高コストな最適化を必要とする場合が多い。本研究では、一度習得された推論能力が、コンパクトなタスクベクトルとして抽出・モデル間で転移可能であることを示している。本研究では、同じ初期化条件下で公開されている2つのQwen2.5モデルを用い、一方は教師あり微調整（SFT）で、他方は同一データセット上でグループ相対方策最適化（GRPO）で微調整した。これらのモデルから、推論ベクトル ( v_{\text{reason}} = \theta_{\text{GRPO}} - \theta_{\text{SFT}} ) を抽出した。このベクトルは、強化学習によって付与された推論能力を捉えつつ、SFTプロセスに共通する知識を除くものと仮定している。このベクトルを、互換性のあるインストラクション微調整済みモデルに単純な算術演算で加算することで、多様な推論ベンチマークにおいて一貫した性能向上が得られた：GSM8K（+4.9%）、HumanEval（+4.3%）、SciQ（+1.7%）、BigBenchHard（1.5Bモデルで+12.3%）。また、敵対的条件下でも性能向上の効果は維持された。逆に、このベクトルを引くと、著しい性能低下（GSM8Kで-11.8%）が生じ、ベクトルがモデルの推論能力に強く寄与していることを示している。本研究は、通常、高コストな訓練を要する推論能力が、既存のオープンソースモデルから抽出され、単純なテンソル演算によって再利用可能であることを示しており、過去の計算投資を再利用する実用的な手法として、モデルの性能向上に貢献する可能性を示している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

推論ベクトル：タスクアリスメティックを用いたチェーン・オブ・シンキング能力の転移

Mohammad Zbeeb Hasan Abed Al Kader Hammoud Bernard Ghanem

要約

AI で AI を構築

Hyper Newsletters