日付

2年前

サイズ

2.79 GB

データセット構成

タグ

InfinityInstruct は、北京人工知能アカデミー (BAAI) によって立ち上げられた、大規模で高品質なオープンソースの命令微調整データセットプロジェクトです。このプロジェクトの目標は、大規模な言語モデルの命令トレース機能をサポートする数百万の命令を含むデータセットを開発し、それによってモデルのパフォーマンスを向上させることです。このバージョンは InfinityInstruct-3M 命令データセットで、最終バージョンは 6 月末にリリースされる予定です。

InfinityInstruct の機能は次のとおりです。

大規模なデータセット：このプロジェクトでは数千万件のコマンドデータを公開する予定で、第一段階では中国語と英語のコマンドデータが300万件公開されています。
高品質なスクリーニング: Zhiyuan Research Institute は、既存のオープンソースデータのドメイン分析と品質スクリーニングを実施して、データの高い価値を確保し、不足している領域のデータ増強を実行します。
オープンソースコミュニティへの貢献: データセットの構築プロセス中に、オープンソースコミュニティは、OpenHermes-2.5、UltraInteract_sft、CodeBagel などの複数のソースからのデータセットを含む大量の命令データを提供しました。
リスク評価とデータ生成：プロジェクトチームはリスク評価とデータ生成を行っており、1,000万個の命令を含む最終バージョンを6月末にリリースする予定です。
パフォーマンスの向上: 現在の 300 万命令のオープンソースデータセットは、Mistral、Openhermes などの既存のデータセットを超える SFT (Supervised Fine-Tuning) データ機能を示しています。
今後の展望: データ量が数千万に増加した後、この命令に基づいてトレーニングされた対話モデルのデータセットを微調整する能力は GPT-4 レベルに達することが期待されます。 InfinityInstruct データセットの開発とリリースは、大規模な言語モデルの研究と応用を促進する上で非常に重要であり、大規模なモデルに豊富な命令データを提供し、命令を理解して実行するモデルの能力を向上させるのに役立ちます。同時に、そのオープンソースの性質により、AI コミュニティでのコラボレーションと知識の共有も促進されます。

InfinityInstruct-3M.torrent

シーディング 1ダウンロード中 0完了 249総ダウンロード数 330

InfinityInstruct-3M/
- README.md
  2.44 KB
- README.txt
  4.88 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

Sutra 10B 事前学習用教育・訓練データセット

2ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用

Discordで議論

日付

2年前

サイズ

2.79 GB

データセット構成

タグ

InfinityInstruct の機能は次のとおりです。

大規模なデータセット：このプロジェクトでは数千万件のコマンドデータを公開する予定で、第一段階では中国語と英語のコマンドデータが300万件公開されています。
高品質なスクリーニング: Zhiyuan Research Institute は、既存のオープンソースデータのドメイン分析と品質スクリーニングを実施して、データの高い価値を確保し、不足している領域のデータ増強を実行します。
オープンソースコミュニティへの貢献: データセットの構築プロセス中に、オープンソースコミュニティは、OpenHermes-2.5、UltraInteract_sft、CodeBagel などの複数のソースからのデータセットを含む大量の命令データを提供しました。
リスク評価とデータ生成：プロジェクトチームはリスク評価とデータ生成を行っており、1,000万個の命令を含む最終バージョンを6月末にリリースする予定です。
パフォーマンスの向上: 現在の 300 万命令のオープンソースデータセットは、Mistral、Openhermes などの既存のデータセットを超える SFT (Supervised Fine-Tuning) データ機能を示しています。
今後の展望: データ量が数千万に増加した後、この命令に基づいてトレーニングされた対話モデルのデータセットを微調整する能力は GPT-4 レベルに達することが期待されます。 InfinityInstruct データセットの開発とリリースは、大規模な言語モデルの研究と応用を促進する上で非常に重要であり、大規模なモデルに豊富な命令データを提供し、命令を理解して実行するモデルの能力を向上させるのに役立ちます。同時に、そのオープンソースの性質により、AI コミュニティでのコラボレーションと知識の共有も促進されます。

InfinityInstruct-3M.torrent

シーディング 1ダウンロード中 0完了 249総ダウンロード数 330

InfinityInstruct-3M/
- README.md
  2.44 KB
- README.txt
  4.88 KB

Sutra 10B 事前学習用教育・訓練データセット

2ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

InfinityInstruct-3M が数千万の命令微調整データセットを起動

InfinityInstruct の機能は次のとおりです。

AIでAIを構築

HyperAI Newsletters

Command Palette

InfinityInstruct-3M が数千万の命令微調整データセットを起動

InfinityInstruct の機能は次のとおりです。

Sutra 10B 事前学習用教育・訓練データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

InfinityInstruct-3M が数千万の命令微調整データセットを起動

InfinityInstruct の機能は次のとおりです。

Sutra 10B 事前学習用教育・訓練データセット

AIでAIを構築

HyperAI Newsletters

Sutra 10B 事前学習用教育・訓練データセット

Sutra 10B 事前学習用教育・訓練データセット