HyperAI超神経
3日前

CoT-Self-Instruct:推論および非推論タスク向け高品質な合成プロンプトの構築

Ping Yu, Jack Lanchantin, Tianlu Wang, Weizhe Yuan, Olga Golovneva, Ilia Kulikov, et al
CoT-Self-Instruct:推論および非推論タスク向け高品質な合成プロンプトの構築
要約

本稿では、大規模言語モデル(LLM)に対して、まず与えられた初期タスクに基づいて思考過程(Chain-of-Thought; CoT)を用いて推論と計画を行い、その後、類似した品質と複雑性を持つ新しい合成プロンプトを生成し、LLMの学習に活用するという手順を指示する合成データ生成手法「CoT-Self-Instruct」を提案する。さらに、自動評価指標を用いたフィルタリングにより高品質なデータを抽出するプロセスを組み込む。検証可能な推論タスクにおいて、本手法がMATH500、AMC23、AIME24、GPQA-Diamondの各ベンチマークで、既存の学習データセット(s1kおよびOpenMathReasoning)を顕著に上回る性能を示した。また、検証不可能な指示従属タスクにおいても、AlpacaEval 2.0およびArena-Hardの両方において、人間が作成したプロンプトや標準的なSelf-Instructプロンプトを上回る性能を達成した。