HyperAI超神経
1日前

数学的推論が汎用LLMの能力を向上させるか? LLMの推論の転移可能性についての理解

Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue
数学的推論が汎用LLMの能力を向上させるか? LLMの推論の転移可能性についての理解
要約

数学的推論は、大規模言語モデル(LLM)の進歩を象徴する存在となり、新しいモデルがMATHやAIMEなどのベンチマークで人間レベルの性能を超える速度で進化しています。しかし、数学のリーダーボードが週を追って改善される中、これらの進歩が広範な問題解決能力を反映しているのか、それとも狭い範囲での過学習に過ぎないのかという疑問が生じます。この問いに対する答えを得るため、20以上のオープンウェイトで調整された推論モデルを対象として、数学、科学的な質問応答(QA)、エージェント計画、コーディング、および標準的な指示に従う能力など多様なタスクで評価を行いました。驚くべきことに、数学で成功したほとんどのモデルが他の分野への転移学習に失敗することがわかりました。この現象を厳密に研究するために、Qwen3-14Bモデルを使用し、数学のみのデータを使用しながら異なる調整方法による制御実験を行いました。その結果、強化学習(RL)によって調整されたモデルは各分野で良好に汎化する一方で、教師あり微調整(SFT)によって調整されたモデルはしばしば一般的な能力を忘れてしまうことが判明しました。潜在空間表現とトークン空間分布シフトの分析により、SFTは表現と出力の大幅な変動を引き起こす一方で、RLは一般分野の構造を保つことが明らかになりました。私たちの結果は、特に推論モデルの進歩のためにSFTから蒸留されたデータへの依存を見直すべきであることを示唆しています。