InfinityInstruct は、北京人工知能アカデミー (BAAI) によって立ち上げられた、大規模で高品質なオープンソースの命令微調整データセット プロジェクトです。このプロジェクトの目標は、大規模な言語モデルの命令トレース機能をサポートする数百万の命令を含むデータセットを開発し、それによってモデルのパフォーマンスを向上させることです。
このバージョンは InfinityInstruct-3M 命令データセットで、最終バージョンは 6 月末にリリースされる予定です。
InfinityInstruct の機能は次のとおりです。
- 大規模なデータセット:このプロジェクトでは数千万件のコマンドデータを公開する予定で、第一段階では中国語と英語のコマンドデータが300万件公開されています。
- 高品質なスクリーニング: Zhiyuan Research Institute は、既存のオープンソース データのドメイン分析と品質スクリーニングを実施して、データの高い価値を確保し、不足している領域のデータ増強を実行します。
- オープンソース コミュニティへの貢献: データ セットの構築プロセス中に、オープン ソース コミュニティは、OpenHermes-2.5、UltraInteract_sft、CodeBagel などの複数のソースからのデータ セットを含む大量の命令データを提供しました。
- リスク評価とデータ生成:プロジェクトチームはリスク評価とデータ生成を行っており、1,000万個の命令を含む最終バージョンを6月末にリリースする予定です。
- パフォーマンスの向上: 現在の 300 万命令のオープンソース データ セットは、Mistral、Openhermes などの既存のデータ セットを超える SFT (Supervised Fine-Tuning) データ機能を示しています。
- 今後の展望: データ量が数千万に増加した後、この命令に基づいてトレーニングされた対話モデルのデータセットを微調整する能力は GPT-4 レベルに達することが期待されます。
InfinityInstruct データセットの開発とリリースは、大規模な言語モデルの研究と応用を促進する上で非常に重要であり、大規模なモデルに豊富な命令データを提供し、命令を理解して実行するモデルの能力を向上させるのに役立ちます。同時に、そのオープンソースの性質により、AI コミュニティでのコラボレーションと知識の共有も促進されます。