乾いたもの! ワンクリックで 20 の非常に人気のある LLM 中国語データ セットを入手

次の記事は、OpenBayes のベイズ計算、著者 Xiaobei からのものです。
以来 チャットGPT 本格的な発売以来、大規模言語モデル (LLM) は、その優れた学習能力でさまざまな分野でセンセーションを巻き起こしています。大規模モデルのトレーニングとチューニングは、高品質で膨大なデータのサポートと切り離すことができません。慎重に構築されたデータセットは、大規模モデルに十分な燃料を提供するだけでなく、垂直分野での大規模モデルのアプリケーションとパフォーマンス向上の可能性も提供します。
この記事では、大規模モデルのトレーニングとチューニングに適した、人気のある中国の公開データ セットをいくつかまとめました (頭文字 A ~ Z の順に並べています)。誰もが理解し、使用できるように。
親切なヒント:
この記事にリストされているすべてのデータセットは、OpenBayes.com プラットフォーム上でワンクリック入力するだけで、モデルのトレーニングとデプロイに直接使用できます。
直接リンク:
https://openbayes.com/console/public/datasets
1 Ape210K 中国の小学校レベルの数学の問題
※発行機関:西北大学袁福道AI研究室
※関連タグ:算術タスク、テキスト生成
* 直接使用します:https://hyper.ai/datasets/28445
Ape210K は、大規模でテンプレートが豊富な新しい数学的文章題データセットです。中国の小学校レベルの算数問題を 21 万問収録。各質問には、最良の答えと、答えに到達するために必要な方程式が含まれています。
2 Belle データセット
※発行機関:iFlytek、CCL、HFL
※関連タグ:テキスト生成、中国語
* 直接使用:https://hyper.ai/datasets/28451
このデータセットは、1,000 サンプルの評価セットを使用して、9 つの現実世界のシナリオをカバーするさまざまなモデルを評価します。BELLEプロジェクトで生成された約350万件の中国語指導データを収録。
3 中国分隊
中国語機械読解データセット
※関連タグ:抽出的な質疑応答、知的な質疑応答
* 直接使用:https://hyper.ai/datasets/28476
このデータ セットは、V1.1 と V2.0 を含む、機械翻訳と手動修正を通じて元の Squad から変換された中国語の機械読解データ セットです。
4 CMRC 2018 中国語機械読解評価データセット
※発行機関:iFlytek、CCL、HFL
※関連タグ:テキストの生成
* 直接使用:https://hyper.ai/datasets/28470
このデータセットには、第 2 回「iFlytek Cup」中国語機械読解理解テスト (CMRC 2018) で使用されたデータが含まれており、計算言語学のトップ国際会議である EMNLP 2019 で承認されました。
5 クロスウォズ タスク指向の対話データセット
※発行機関:清華大学、BNRIST
※関連タグ:質疑応答データセット、中国語
* 直接使用:https://hyper.ai/datasets/28442
CrossWOZ は、初の大規模なタスク指向の中国のクロスドメインのオズの魔法使い指向のデータセットです。5 つのシーン (観光スポット、ホテル、レストラン、地下鉄、タクシー) に 6,000 のダイアログと 102,000 の文章が含まれています。さらに、コーパスには、豊富な対話ステータスの注釈と、ユーザーとシステム間の対話動作が含まれています。
6 DRCD デルタ読解データセット
※発行機関:デルタ エレクトロニクス社デルタ研究センター
※関連タグ:テキスト検出、機械学習
* 直接使用:https://hyper.ai/datasets/28473
Delta Reading Comprehension Dataset (DRCD) は、汎用の繁体字中国語機械読解データセットです。このデータセットは、標準的な中国語機械読解データセットとなることを目指しています。2,108 の Wikipedia 記事からの 10,014 の段落と、アノテーターによって生成された 30,000 以上の質問が含まれています。
7 Douban 会話コーパス 豆板会話コーパス
※発行機関:北航大学、南開大学、MSR
※関連タグ:質疑応答分析、自然言語処理
* 直接使用:https://hyper.ai/datasets/28497
このデータ セットには、検索ベースのチャットボットのトレーニング データ セット、開発セット、およびテスト セットが含まれます。テスト データには 1000 の会話コンテキストが含まれています。コンテキストごとに 10 個の回答が候補として作成されました。
8 デュリーダー 質問と回答のデータセット
※発行機関:百度
※関連タグ:質問と回答のデータセット、インテリジェントな質問と回答
* 直接使用:https://hyper.ai/datasets/28461
DuReader は、機械読解の分野に焦点を当てたベンチマーク データ セットおよびモデルであり、主にインテリジェントな質問応答タスクに使用されます。
9 E-KAR中国語版 解釈可能な知識集約型の類推ベンチマーク
※発行機関:復旦大学、ByteDance AI Lab、Brain Technologies, Inc.
※関連タグ:テキスト生成、自然言語処理
* 直接使用:https://hyper.ai/datasets/28517
E-KAR は、説明可能な知識集約型の類推推論のベンチマークの略です。既存の単語類推テスト ベンチマークでは、ニューラル モデルの類推推論の基礎となるプロセスを明らかにすることはできません。推論機能を備えたモデルには、基本的な信念として正しい理由が必要であると研究者は考えています。したがって、最初の知識ベースの説明可能な類推ベンチマーク (E-KAR) が提案されます。ベンチマーク データ セットには、公務員試験の問題 1,655 問 (中国語) と 1,251 問 (英語) が含まれており、これらの問題を解くには多くの背景知識が必要です。
10 FCGEC 中国語文法の誤り検出および修正データセット
※発行機関:浙江大学、ファーウェイ
※関連タグ:テキスト検出
* 直接使用:https://hyper.ai/datasets/28512
FCGEC は、中国語文法誤り訂正のためのファイングレイン コーパスの略です。大規模なネイティブ話者向けの複数参照テキスト修正コーパスです。、誤り訂正モデル システムのトレーニングと評価に使用されます。データ ソースは主に小学生、中学生、高校生の誤った文章のテスト問題とニュース集約 Web サイトです。
11 KdConv 中国語のマルチドメイン会話データセット
※発行機関:清華大学
※関連タグ:テキストの生成
* 直接使用:https://hyper.ai/datasets/28507
KdConv は、ナレッジ グラフ上の複数ラウンドの対話でトピックを構築する、中国のマルチドメインの知識主導型対話データ セットです。 KdConv には、3 つのドメイン (映画、音楽、旅行) からの 4.5,000 の会話と、平均ローテーション数 19.0 の 86,000 の発話が含まれています。知識計画、知識ベース、知識適応などを含む、人間によるマルチターン対話における知識相互作用のモデル化に適しています。
12 数学23K 数学単語データセット
※発行機関:テンセントAIラボ
※関連タグ:コーパス、数学の問題
* 直接使用:https://hyper.ai/datasets/28504
Math23K の正式名称は、Math Word Question Solving の Math23K です。数学の文章題を解くために作成されたデータセットです。インターネットからクロールした 23,162 件の中国語の質問が含まれています。
13 メッドダイアログ 中国の医師と患者の対話データセット
※関連タグ:医学研究、会話データセット
* 直接使用:https://hyper.ai/datasets/28483
MedDialog は、医師と患者の間の 110 万件の会話と 400 万件の発話を含む大規模な医療会話データ セットです。
14 ODSQA オープンドメインの音声によるインテリジェントな質問と回答のデータ セット
※発行機関:国立台湾大学
※関連タグ:インテリジェントな質問応答、自然言語処理
* 直接使用:https://hyper.ai/datasets/28500
ODSQA データ セットは、中国語の質疑応答用の音声言語データ セットです。20 人の異なる講演者からの 3,000 を超える質問が含まれています。
15 レッドGPT 事実に基づく会話データセットを自動的に生成
※関連タグ:テキスト生成、自然言語処理
* 直接使用:https://hyper.ai/datasets/28448
RedGPT の正式名は、GPT による GPT のための Reference-Enlightened-Dialogue です。事実の正しさは ChatGPT の大きな弱点です。事実の正しさを改善するには、大量の事実の会話データに注釈を付けて GPT モデルを微調整します。手動による注釈の高額なコストを避けるために、研究者らは、事実に基づいた対話を自動生成する手法を提案し、合計5万件の中国語のマルチターン対話を含むデータの一部(RedGPT-Dataset-V1-CN)を公開した。
16 国連対訳コーパス 国連対訳コーパス v1.0
※発行機関:清華大学、BNRIST
※関連タグ:質疑応答データセット、中国語
* 直接使用:https://hyper.ai/datasets/28464
CrossWOZ は、初の大規模なタスク指向の中国のクロスドメインのオズの魔法使い指向のデータセットです。5 つのシーン (観光スポット、ホテル、レストラン、地下鉄、タクシー) に 6,000 のダイアログと 102,000 の文章が含まれています。さらに、コーパスには、豊富な対話ステータスの注釈と、ユーザーとシステム間の対話動作が含まれています。
17 VQA 視覚的な質問応答データセット
※関連タグ:ビジュアル質疑応答、質疑応答データセット
* 直接使用:https://hyper.ai/datasets/28455
ディープラーニングの発展により、マルチモーダルラーニング関連タスクの解決が促進されました。ビジュアル質問応答 (VQA) は非常に困難な例であり、画像からの高レベルのシーン解釈と、関連する質問応答言語と組み合わせたモデリングが必要です。画像とその画像に関する自然言語の質問が与えられた場合、タスクは正確な自然言語の回答を提供することです。これは、このタスクを実行するために設計された Keras に実装されたエンドツーエンド システムです。
18 WebQA v1.0 Baidu 中国語の質問と回答のデータ セット
※発行機関:百度
※関連タグ:ディープラーニング、インテリジェントな質疑応答
* 直接使用:https://hyper.ai/datasets/28467
これは、2016 年に Baidu によってオープンソース化されたデータ セットです。データは Baidu Knows から提供されています。形式は、1 つの質問に対して基本的に同じ意味を持つ複数の記事であり、人間による注釈とブラウザ検索に分かれています。
19 XiaChuFangレシピコーパス ローワーキッチンレシピコーパス
※関連タグ:テキスト認識、テキスト検出
* 直接使用:https://1lh.cc/4jaL8b
このレシピ コーパスには 1,520,327 件の中華レシピが含まれています。このうち、1,242,206 件のレシピが 30,060 件の料理に属しています。料理ごとに平均 41.3 のレシピがあります。 415,272 人の著者がレシピを投稿。その中で、最も生産的な著者は 5,394 件のレシピをアップロードしました。
* 直接使用:https://hyper.ai/datasets/28489
20 XQAD クロスランゲージ質問応答データセット
※発行機関:iFlytek、CCL、HFL
※関連タグ:質問と回答の分析、読解
* 直接使用:https://hyper.ai/datasets/28458
XQuAD (Cross-Language Question Answering Dataset) は、異言語質問応答パフォーマンスを評価するためのベンチマーク データセットです。このデータセットは、SQuAD v1.1 (Rajpurkar et al., 2016) 開発セットからの 240 のパッセージと 1,190 の質問と回答のペアのサブセットで構成されています。
上記データセットをワンクリックで入力
豊富なデータ セットには、依然として高品質のコンピューティング プラットフォームのサポートが必要です。現在、OpenBayes コンピューティング プラットフォームは、ワンクリックでのデータ セットのバインドをサポートしています。コンテナ作成時にワンクリック入力するだけで、ターゲット データ セットは対応するコンテナにバインドできるため、面倒なダウンロードとアップロードのプロセスが不要になり、ユーザーの個人的なストレージ スペースを占有することもありません。
ビデオチュートリアルのリファレンス:
【OpenBayes公式チュートリアル】組織連携_bilibili_bilibili
詳細なドキュメントについては、以下を参照してください。https://1lh.cc/v2ao4q
また、OpenBayes プラットフォームは、500 を超える厳選された公開データ セット、モデル、チュートリアル、その他の高品質のリソースも提供します。「パブリック リソース」モジュールに統合されています。
非常に高速なバインディングを今すぐ体験するには、次のサイトにアクセスしてください。