Command Palette
Search for a command to run...
メガサイエンス:サイエンス推論のためのトレーニング後データセットの限界を突き進める
メガサイエンス:サイエンス推論のためのトレーニング後データセットの限界を突き進める
Run-Ze Fan Zengzhi Wang Pengfei Liu
概要
科学的推論は、AI科学者を育成し、人間の研究者が自然科学の発見の前線を推進する上で不可欠である。しかし、オープンソースコミュニティは主に数学とプログラミングに注力しており、科学分野については無視傾向にあり、その主な理由は、公開され、大規模で高品質かつ検証可能な科学的推論データセットが存在しないことである。このギャップを埋めるために、まず12,000の大学レベルの科学教科書から抽出された信頼できる参照解答を備えたオープンデータセット「TextbookReasoning」を紹介する。このデータセットは、7つの科学分野にわたる650,000問の推論問題を含んでいる。さらに、高品質なオープンソースデータセットの混合として125万件のインスタンスを含む「MegaScience」を紹介する。これは、さまざまなデータ選定手法を系統的に評価し、各公開可能な科学データセットにおいて最適なサブセットを特定するためのアブレーション研究を通じて構築された。同時に、15のベンチマークにわたる多様な科目および質問形式をカバーする包括的な評価システムを構築し、正確な評価指標を確保するための包括的な回答抽出戦略を組み込んでいる。実験の結果、我々のデータセットは既存のオープンソース科学データセットと比較して、より簡潔な応答長で優れた性能とトレーニング効率を示した。さらに、MegaScience上でLlama3.1、Qwen2.5、Qwen3シリーズのベースモデルをトレーニングした結果、平均性能において対応する公式インストラクトモデルをはるかに上回った。また、MegaScienceはより大規模で強力なモデルに対してより高い効果を示し、科学的チューニングにおけるスケーリングの利点を示唆している。我々は、データの整備プロセス、評価システム、データセット、および7つのトレーニング済みモデルをコミュニティに公開し、科学的推論研究の進展を図る。