HyperAI超神経

ShareGPT 90k 中国語と英語のバイリンガル ヒューマン マシンの質問と回答のデータ セット

ShareGPT- Chinese-English-90k は、実際の複雑なシナリオにおけるユーザーの質問をカバーする、中国語と英語の対訳の高品質なヒューマン マシンの質問と回答のデータ セットです。高品質の対話モデルをトレーニングするために使用できます (API インターフェイスを繰り返し呼び出してマシン シミュレーションの質問と回答を生成するデータよりも、命令の配布において堅牢です)。

このデータセットの特徴は次のとおりです。

  • 同時に、全く同じ意味表現を持つ中国語と英語の対訳コーパスを提供し、バイリンガル対話モデルのトレーニングに使用できます。
  • すべての質問は人為的に想像されたものではなく、API ポーリングによって作成された偽のデータ (Moss など) は実際のユーザー シナリオのコマンド分布と質問表現により一致しています。
  • Sharegpt データ セットは、ネチズンによる自発的な共有によって収集されます。これは、(人間の感情による) 非常に自然なフィルターに相当し、不快な経験のある会話のほとんどを除外します。
ShareGPT-Chinese-English-90k.torrent
シーディング 1ダウンロード中 1ダウンロード完了 186総ダウンロード数 525
  • ShareGPT-Chinese-English-90k/
    • README.md
      1.5 KB
    • README.txt
      2.99 KB
      • data/
        • sharegpt-ec.zip
          730.58 MB