17日前

Orca-Math:小学校算数におけるSLMの潜在能力を解き放つ

Arindam Mitra, Hamed Khanpour, Corby Rosset, Ahmed Awadallah
Orca-Math:小学校算数におけるSLMの潜在能力を解き放つ
要約

数学的言語問題解決は、小規模言語モデル(SLM)にとって長年にわたり複雑なタスクとされてきた。最近の研究では、GSM8Kベンチマークで80%以上の精度を達成するために必要な最小モデルサイズが340億パラメータであると仮説が立てられた。この性能をより小さなモデルで達成するため、研究者たちは通常、SLMにPythonコードの生成を学習させたり、計算誤差を回避するためのツールを利用したりしている。さらに、最大100回のモデル実行結果を統合するアンサンブル(ensemble)手法を用いることが一般的である。結果の選択には、コンセンサスや多数決、あるいはSLMと併用して使用される別途の検証モデル(verifier model)が用いられる。アンサンブルは精度を著しく向上させるが、モデルへの複数回の呼び出しによるコスト増大という大きな課題を伴う(例:Phi-GSMはtop-48の結果を用いて、精度を68.2%から81.5%まで向上させている)。本研究では、Mistral-7Bをベースとする70億パラメータのSLM「Orca-Math」を提案する。このモデルは、複数回のモデル呼び出しや検証モデル、コード実行、その他の外部ツールを一切使用せずに、GSM8Kで86.81%の精度(pass@1)を達成している。本アプローチの主な特徴は以下の通りである:(1)複数エージェントによる協調作業を用いて生成された、20万件の高品質な合成数学問題データセットの構築、(2)反復的学習(iterative learning)技術の導入により、SLMが問題を解き、その解答に対するフィードバックを受け、フィードバックを含む解答ペア(preference pairs)に基づいて学習を進める仕組み。教師あり微調整(Supervised Fine-Tuning)のみで訓練した場合、Orca-MathはGSM8Kのpass@1で81.50%を達成する。一方、反復的好み学習(iterative preference learning)を適用した場合、精度は86.81%にまで向上する。Orca-Mathは、LLAMA-2-70B、WizardMath-70B、Gemini-Pro、ChatGPT-3.5といったはるかに大きなモデルを上回る性能を発揮しており、他の小規模モデルと比較しても顕著に優れた結果を達成している。さらに、その学習データ量は数10万件程度と、他のモデルと比べてはるかに少ない(数百万件対比)にもかかわらず、優れた性能を実現している。

Orca-Math:小学校算数におけるSLMの潜在能力を解き放つ | 最新論文 | HyperAI超神経