Command Palette
Search for a command to run...
Mohammad Zbeeb Hasan Abed Al Kader Hammoud Bernard Ghanem

要約
大規模言語モデルは、複雑な推論タスクを習得するため、強化学習を含む高コストな最適化を必要とする場合が多い。本研究では、一度習得された推論能力が、コンパクトなタスクベクトルとして抽出・モデル間で転移可能であることを示している。本研究では、同じ初期化条件下で公開されている2つのQwen2.5モデルを用い、一方は教師あり微調整(SFT)で、他方は同一データセット上でグループ相対方策最適化(GRPO)で微調整した。これらのモデルから、推論ベクトル ( v_{\text{reason}} = \theta_{\text{GRPO}} - \theta_{\text{SFT}} ) を抽出した。このベクトルは、強化学習によって付与された推論能力を捉えつつ、SFTプロセスに共通する知識を除くものと仮定している。このベクトルを、互換性のあるインストラクション微調整済みモデルに単純な算術演算で加算することで、多様な推論ベンチマークにおいて一貫した性能向上が得られた:GSM8K(+4.9%)、HumanEval(+4.3%)、SciQ(+1.7%)、BigBenchHard(1.5Bモデルで+12.3%)。また、敵対的条件下でも性能向上の効果は維持された。逆に、このベクトルを引くと、著しい性能低下(GSM8Kで-11.8%)が生じ、ベクトルがモデルの推論能力に強く寄与していることを示している。本研究は、通常、高コストな訓練を要する推論能力が、既存のオープンソースモデルから抽出され、単純なテンソル演算によって再利用可能であることを示しており、過去の計算投資を再利用する実用的な手法として、モデルの性能向上に貢献する可能性を示している。