6ヶ月前

監視付き微調整

アプローチ／フレームワーク

Ping Yu Jack Lanchantin Tianlu Wang Weizhe Yuan Olga Golovneva Ilia Kulikov et al

概要

本稿では、大規模言語モデル（LLM）に対して、まず与えられた初期タスクに基づいて思考過程（Chain-of-Thought; CoT）を用いて推論と計画を行い、その後、類似した品質と複雑性を持つ新しい合成プロンプトを生成し、LLMの学習に活用するという手順を指示する合成データ生成手法「CoT-Self-Instruct」を提案する。さらに、自動評価指標を用いたフィルタリングにより高品質なデータを抽出するプロセスを組み込む。検証可能な推論タスクにおいて、本手法がMATH500、AMC23、AIME24、GPQA-Diamondの各ベンチマークで、既存の学習データセット（s1kおよびOpenMathReasoning）を顕著に上回る性能を示した。また、検証不可能な指示従属タスクにおいても、AlpacaEval 2.0およびArena-Hardの両方において、人間が作成したプロンプトや標準的なSelf-Instructプロンプトを上回る性能を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

監視付き微調整

アプローチ／フレームワーク

Ping Yu Jack Lanchantin Tianlu Wang Weizhe Yuan Olga Golovneva Ilia Kulikov et al

概要

本稿では、大規模言語モデル（LLM）に対して、まず与えられた初期タスクに基づいて思考過程（Chain-of-Thought; CoT）を用いて推論と計画を行い、その後、類似した品質と複雑性を持つ新しい合成プロンプトを生成し、LLMの学習に活用するという手順を指示する合成データ生成手法「CoT-Self-Instruct」を提案する。さらに、自動評価指標を用いたフィルタリングにより高品質なデータを抽出するプロセスを組み込む。検証可能な推論タスクにおいて、本手法がMATH500、AMC23、AIME24、GPQA-Diamondの各ベンチマークで、既存の学習データセット（s1kおよびOpenMathReasoning）を顕著に上回る性能を示した。また、検証不可能な指示従属タスクにおいても、AlpacaEval 2.0およびArena-Hardの両方において、人間が作成したプロンプトや標準的なSelf-Instructプロンプトを上回る性能を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています