HyperAI超神経

COIG-CQIA 高品質中国語命令微調整データセット

日付

1年前

サイズ

88.8 MB

組織

ゼロワンのこと
特色图像

COIG-CQIA は、 Chinese Open struction Generalist の略で、必要なのは品質だけです。オープンソースの高品質な命令微調整データ セットです。中国の NLP コミュニティに、人間のインタラクション行動と一致する高品質な指導の微調整データを提供することを目的としています。 COIG-CQIA は、中国のインターネットから取得した質問と回答および記事を生データとして使用し、徹底的なクリーニング、再構築、手動レビューを通じて構築されています。

このプロジェクトは、LIMA: Less Is More for Alignment などの研究に触発されており、少量の高品質データを使用することで、大規模な言語モデルが人間のインタラクション行動を学習できるようになります。そのため、言語モデルのソース、品質、多様性に重点が置かれています。データ構築におけるデータ 詳細については、データの紹介と研究チームの論文を参照してください。

データ収集

  • 研究チームは、データの多様性と豊富さを確保するために、中国のインターネット上の複数のソースから手書きのテキスト データを大量に収集しました。
  • データのソースには、Q&A コミュニティ (Zhihu、Sifou、Douban、Xiaohongshu、Zhibaba など) だけでなく、Wiki タイプのナレッジ プラットフォーム (百度百科など)、各種試験資料 (高校など) も含まれます。および大学入学試験などの試験問題、専門資格試験の問題など)、および既存の NLP データ セット。
  • 収集する際は、実際の中国語ユーザーの対話パターンを反映できる関連データの選択に重点を置き、現実世界の言語使用に対するモデルの理解を強化します。

COIG-CQIA.torrent
シーディング 1ダウンロード中 1ダウンロード完了 206総ダウンロード数 406
  • COIG-CQIA/
    • README.md
      1.4 KB
    • README.txt
      2.81 KB
      • data/
        • coig.zip
          88.8 MB