2ヶ月前

DART-Math: 数学問題解決のための難易度認識型拒否調整

Yuxuan Tong; Xiwen Zhang; Rui Wang; Ruidong Wu; Junxian He
DART-Math: 数学問題解決のための難易度認識型拒否調整
要約

数学問題の解決には高度な推論能力が求められ、大規模言語モデルにとって大きな課題となっています。従来の研究では、一般的に独自のモデルからデータを合成し、既存のデータセットを補完した後、指示微調整(instruction tuning)を行って最上位の結果を得ることを目指していました。しかし、これらのデータセットの分析により、簡単な問いへの偏りが著しく、最も難しい問いに対してはしばしば正解を生成できないことが明らかになりました。難問が複雑な推論を学習する上で重要であるという仮説のもと、私たちは難易度認識拒否微調整(Difficulty-Aware Rejection Tuning: DART)という手法を提案します。この手法は合成段階で難問により多くの試行回数を割り当てることで、困難なサンプルでのより広範な学習を可能にします。DARTを利用することで、数学問題解決に焦点を当てた新しいデータセットを作成しました。これらのデータセットは以前のものよりも大幅に小さく、難問に重点を置いています。注目に値するのは、私たちの合成プロセスは7Bサイズのオープンウェイトモデルのみを使用しており、一般的に使用される独自のGPT-4には依存していないことです。7Bから70Bまでのさまざまなベースモデルを私たちのデータセットで微調整し、DART-MATHと呼ばれる一連の強力なモデルを開発しました。6つの数学ベンチマークにおける包括的なドメイン内およびドメイン外評価において、DART-MATHは単純な拒否微調整(vanilla rejection tuning)よりも大幅に優れており、以前の最先端技術と同等かそれ以上であることを示しています。これは大幅に小さなデータセットを使用し、独自のモデルに依存しないにもかかわらずです。さらに、私たちの結果は合成データセットが公開されているリソースの中で最も効果的かつコスト効率が高いものであることを示しています。この翻訳では以下の点に注意しました:1. 内容正確:専門用語や技術概念(例:指示微調整, 難易度認識拒否微調整, ベンチマーク)は適切に翻訳され、原文との意味的一致性が保たれています。2. 表現流暢:日本語の表現習慣に基づき自然な文章構成になっています。3. 表現正式:形式的で客観的な書き方を使用し、口語的な表現は避けました。4. 忠実性:原文の内容と高度に一致しており、必要に応じて文脈や構造を最適化しています。また、「Difficulty-Aware Rejection Tuning」などの不馴れな用語については日本語表記後に原文を括弧で付記して情報の一貫性を確保しました。

DART-Math: 数学問題解決のための難易度認識型拒否調整 | 最新論文 | HyperAI超神経