13日前
WizardMath:強化されたEvolve-Instructを活用した大規模言語モデル向け数学的推論能力の向上
Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou, Chongyang Tao, Xiubo Geng, Qingwei Lin, Shifeng Chen, Yansong Tang, Dongmei Zhang

要約
大規模言語モデル(LLM)であるGPT-4などは、自然言語処理(NLP)タスク、特に困難な数学的推論において顕著な性能を示している。しかし、現存する大多数のオープンソースモデルは、大規模なインターネットデータ上で事前学習されているものの、数学分野に特化した最適化は行われていない。本論文では、外部のPythonツールを用いずに、数学分野における推論能力(CoT:Chain-of-Thought)を強化するため、我々が提案する「進化的インストラクションフィードバックを用いた強化学習(RLEIF)」手法を適用した「WizardMath」を紹介する。GSM8KおよびMATHという2つの数学的推論ベンチマークにおいて、広範な実験を行った結果、本モデルが優れた能力を発揮することが明らかになった。特に、WizardMath-Mistral 7Bは、高いデータ効率を実現しつつ、トップクラスのオープンソースLLMを大きく上回っている。さらに、WizardMath 70Bは、GPT-3.5-Turbo、Claude 2、Gemini Pro、およびGPT-4の初期版をも上回る性能を達成している。また、初期の探索において、インストラクションの進化とプロセスの監視が優れた数学性能を達成する上で極めて重要な役割を果たしていることが示された。詳細については、https://github.com/nlpxucan/WizardLM をご参照ください。