SynLogic推論データセット
SynLogicは、香港科技大学とMiniMax研究チームによって2025年に公開された包括的な合成論理推論データセットです。関連する論文結果は以下の通りです。SynLogic: 論理的推論の学習とそれ以降の学習のための、検証可能な推論データの大規模な合成検証可能な報酬による強化学習を通じて大規模言語モデル (LLM) の論理的推論能力を強化することを目指しています。
このデータセットには 35 の多様な論理的推論タスクが含まれており、自動検証機能も備えているため、強化学習のトレーニングに最適です。
主な特徴
- 35 種類のタスク: 数独、24 ポイント ゲーム、パスワード、矢印迷路、算数パズルなど。
- 検証可能なボーナス: すべてのサンプルには、正確性をチェックするための自動検証機能があります。
- 難易度を制御可能: 各タスクには調整可能な難易度パラメータがあります
- 2つのバージョン:簡単バージョン(7Bモデル用)と難しいバージョン(32Bモデル用)
データセットの構成
- ターゲット: 7Bパラメータモデル
- タスク: 27ミッション
- サンプル: 約16,000のトレーニングインスタンス
- ターゲット:32Bパラメータモデル
- タスク: 全35タスク
- サンプル: 約33,000のトレーニングインスタンス