乾いたもの！ワンクリックで 20 の非常に人気のある LLM 中国語データセットを入手

3年前

次の記事は、OpenBayes のベイズ計算、著者 Xiaobei からのものです。

OpenBayes ベイジアン計算.

OpenBayes は、中国を代表するハイパフォーマンスコンピューティングサービスプロバイダーであり、従来のソフトウェアエコロジーと機械学習モデルを新世代の異種チップに移植することで、より高速で使いやすいデータサイエンスコンピューティング製品を産業界や大学の科学研究に提供しています。 , 数十の大手産業企業や主要な科学研究機関にサービスを提供してきました。

以来チャットGPT 本格的な発売以来、大規模言語モデル (LLM) は、その優れた学習能力でさまざまな分野でセンセーションを巻き起こしています。大規模モデルのトレーニングとチューニングは、高品質で膨大なデータのサポートと切り離すことができません。慎重に構築されたデータセットは、大規模モデルに十分な燃料を提供するだけでなく、垂直分野での大規模モデルのアプリケーションとパフォーマンス向上の可能性も提供します。

この記事では、大規模モデルのトレーニングとチューニングに適した、人気のある中国の公開データセットをいくつかまとめました (頭文字 A ～ Z の順に並べています)。誰もが理解し、使用できるように。

親切なヒント:

この記事にリストされているすべてのデータセットは、OpenBayes.com プラットフォーム上でワンクリック入力するだけで、モデルのトレーニングとデプロイに直接使用できます。

直接リンク:

https://openbayes.com/console/public/datasets

1 Ape210K 中国の小学校レベルの数学の問題

※発行機関：西北大学袁福道AI研究室

※関連タグ：算術タスク、テキスト生成

* 直接使用します:https://hyper.ai/datasets/28445

Ape210K は、大規模でテンプレートが豊富な新しい数学的文章題データセットです。中国の小学校レベルの算数問題を 21 万問収録。各質問には、最良の答えと、答えに到達するために必要な方程式が含まれています。

2 Belle データセット

※発行機関：iFlytek、CCL、HFL

※関連タグ：テキスト生成、中国語

* 直接使用:https://hyper.ai/datasets/28451

このデータセットは、1,000 サンプルの評価セットを使用して、9 つの現実世界のシナリオをカバーするさまざまなモデルを評価します。BELLEプロジェクトで生成された約350万件の中国語指導データを収録。

3 中国分隊

中国語機械読解データセット

※関連タグ：抽出的な質疑応答、知的な質疑応答

* 直接使用:https://hyper.ai/datasets/28476

このデータセットは、V1.1 と V2.0 を含む、機械翻訳と手動修正を通じて元の Squad から変換された中国語の機械読解データセットです。

4 CMRC 2018 中国語機械読解評価データセット

※発行機関：iFlytek、CCL、HFL

※関連タグ：テキストの生成

* 直接使用:https://hyper.ai/datasets/28470

このデータセットには、第 2 回「iFlytek Cup」中国語機械読解理解テスト (CMRC 2018) で使用されたデータが含まれており、計算言語学のトップ国際会議である EMNLP 2019 で承認されました。

5 クロスウォズタスク指向の対話データセット

※発行機関：清華大学、BNRIST

※関連タグ：質疑応答データセット、中国語

* 直接使用:https://hyper.ai/datasets/28442

CrossWOZ は、初の大規模なタスク指向の中国のクロスドメインのオズの魔法使い指向のデータセットです。5 つのシーン (観光スポット、ホテル、レストラン、地下鉄、タクシー) に 6,000 のダイアログと 102,000 の文章が含まれています。さらに、コーパスには、豊富な対話ステータスの注釈と、ユーザーとシステム間の対話動作が含まれています。

6 DRCD デルタ読解データセット

※発行機関：デルタエレクトロニクス社デルタ研究センター

※関連タグ：テキスト検出、機械学習

* 直接使用:https://hyper.ai/datasets/28473

Delta Reading Comprehension Dataset (DRCD) は、汎用の繁体字中国語機械読解データセットです。このデータセットは、標準的な中国語機械読解データセットとなることを目指しています。2,108 の Wikipedia 記事からの 10,014 の段落と、アノテーターによって生成された 30,000 以上の質問が含まれています。

7 Douban 会話コーパス豆板会話コーパス

※発行機関：北航大学、南開大学、MSR

※関連タグ：質疑応答分析、自然言語処理

* 直接使用:https://hyper.ai/datasets/28497

このデータセットには、検索ベースのチャットボットのトレーニングデータセット、開発セット、およびテストセットが含まれます。テストデータには 1000 の会話コンテキストが含まれています。コンテキストごとに 10 個の回答が候補として作成されました。

8 デュリーダー質問と回答のデータセット

※発行機関：百度

※関連タグ：質問と回答のデータセット、インテリジェントな質問と回答

* 直接使用:https://hyper.ai/datasets/28461

DuReader は、機械読解の分野に焦点を当てたベンチマークデータセットおよびモデルであり、主にインテリジェントな質問応答タスクに使用されます。

9 E-KAR中国語版解釈可能な知識集約型の類推ベンチマーク

※発行機関：復旦大学、ByteDance AI Lab、Brain Technologies, Inc.

※関連タグ：テキスト生成、自然言語処理

* 直接使用:https://hyper.ai/datasets/28517

E-KAR は、説明可能な知識集約型の類推推論のベンチマークの略です。既存の単語類推テストベンチマークでは、ニューラルモデルの類推推論の基礎となるプロセスを明らかにすることはできません。推論機能を備えたモデルには、基本的な信念として正しい理由が必要であると研究者は考えています。したがって、最初の知識ベースの説明可能な類推ベンチマーク (E-KAR) が提案されます。ベンチマークデータセットには、公務員試験の問題 1,655 問 (中国語) と 1,251 問 (英語) が含まれており、これらの問題を解くには多くの背景知識が必要です。

10 FCGEC 中国語文法の誤り検出および修正データセット

※発行機関：浙江大学、ファーウェイ

※関連タグ：テキスト検出

* 直接使用:https://hyper.ai/datasets/28512

FCGEC は、中国語文法誤り訂正のためのファイングレインコーパスの略です。大規模なネイティブ話者向けの複数参照テキスト修正コーパスです。、誤り訂正モデルシステムのトレーニングと評価に使用されます。データソースは主に小学生、中学生、高校生の誤った文章のテスト問題とニュース集約 Web サイトです。

11 KdConv 中国語のマルチドメイン会話データセット

※発行機関：清華大学

※関連タグ：テキストの生成

* 直接使用:https://hyper.ai/datasets/28507

KdConv は、ナレッジグラフ上の複数ラウンドの対話でトピックを構築する、中国のマルチドメインの知識主導型対話データセットです。 KdConv には、3 つのドメイン (映画、音楽、旅行) からの 4.5,000 の会話と、平均ローテーション数 19.0 の 86,000 の発話が含まれています。知識計画、知識ベース、知識適応などを含む、人間によるマルチターン対話における知識相互作用のモデル化に適しています。

12 数学23K 数学単語データセット

※発行機関：テンセントAIラボ

※関連タグ：コーパス、数学の問題

* 直接使用:https://hyper.ai/datasets/28504

Math23K の正式名称は、Math Word Question Solving の Math23K です。数学の文章題を解くために作成されたデータセットです。インターネットからクロールした 23,162 件の中国語の質問が含まれています。

13 メッドダイアログ中国の医師と患者の対話データセット

※関連タグ：医学研究、会話データセット

* 直接使用:https://hyper.ai/datasets/28483

MedDialog は、医師と患者の間の 110 万件の会話と 400 万件の発話を含む大規模な医療会話データセットです。

14 ODSQA オープンドメインの音声によるインテリジェントな質問と回答のデータセット

※発行機関：国立台湾大学

※関連タグ：インテリジェントな質問応答、自然言語処理

* 直接使用:https://hyper.ai/datasets/28500

ODSQA データセットは、中国語の質疑応答用の音声言語データセットです。20 人の異なる講演者からの 3,000 を超える質問が含まれています。

15 レッドGPT 事実に基づく会話データセットを自動的に生成

※関連タグ：テキスト生成、自然言語処理

* 直接使用:https://hyper.ai/datasets/28448

RedGPT の正式名は、GPT による GPT のための Reference-Enlightened-Dialogue です。事実の正しさは ChatGPT の大きな弱点です。事実の正しさを改善するには、大量の事実の会話データに注釈を付けて GPT モデルを微調整します。手動による注釈の高額なコストを避けるために、研究者らは、事実に基づいた対話を自動生成する手法を提案し、合計5万件の中国語のマルチターン対話を含むデータの一部（RedGPT-Dataset-V1-CN）を公開した。

16 国連対訳コーパス国連対訳コーパス v1.0

※発行機関：清華大学、BNRIST

※関連タグ：質疑応答データセット、中国語

* 直接使用:https://hyper.ai/datasets/28464

17 VQA 視覚的な質問応答データセット

※関連タグ：ビジュアル質疑応答、質疑応答データセット

* 直接使用:https://hyper.ai/datasets/28455

ディープラーニングの発展により、マルチモーダルラーニング関連タスクの解決が促進されました。ビジュアル質問応答 (VQA) は非常に困難な例であり、画像からの高レベルのシーン解釈と、関連する質問応答言語と組み合わせたモデリングが必要です。画像とその画像に関する自然言語の質問が与えられた場合、タスクは正確な自然言語の回答を提供することです。これは、このタスクを実行するために設計された Keras に実装されたエンドツーエンドシステムです。

18 WebQA v1.0 Baidu 中国語の質問と回答のデータセット

※発行機関：百度

※関連タグ：ディープラーニング、インテリジェントな質疑応答

* 直接使用:https://hyper.ai/datasets/28467

これは、2016 年に Baidu によってオープンソース化されたデータセットです。データは Baidu Knows から提供されています。形式は、1 つの質問に対して基本的に同じ意味を持つ複数の記事であり、人間による注釈とブラウザ検索に分かれています。

19 XiaChuFangレシピコーパスローワーキッチンレシピコーパス

※関連タグ：テキスト認識、テキスト検出

* 直接使用:https://1lh.cc/4jaL8b

このレシピコーパスには 1,520,327 件の中華レシピが含まれています。このうち、1,242,206 件のレシピが 30,060 件の料理に属しています。料理ごとに平均 41.3 のレシピがあります。 415,272 人の著者がレシピを投稿。その中で、最も生産的な著者は 5,394 件のレシピをアップロードしました。

* 直接使用:https://hyper.ai/datasets/28489

20 XQAD クロスランゲージ質問応答データセット

※発行機関：iFlytek、CCL、HFL

※関連タグ：質問と回答の分析、読解

* 直接使用:https://hyper.ai/datasets/28458

XQuAD (Cross-Language Question Answering Dataset) は、異言語質問応答パフォーマンスを評価するためのベンチマークデータセットです。このデータセットは、SQuAD v1.1 (Rajpurkar et al., 2016) 開発セットからの 240 のパッセージと 1,190 の質問と回答のペアのサブセットで構成されています。

上記データセットをワンクリックで入力

豊富なデータセットには、依然として高品質のコンピューティングプラットフォームのサポートが必要です。現在、OpenBayes コンピューティングプラットフォームは、ワンクリックでのデータセットのバインドをサポートしています。コンテナ作成時にワンクリック入力するだけで、ターゲットデータセットは対応するコンテナにバインドできるため、面倒なダウンロードとアップロードのプロセスが不要になり、ユーザーの個人的なストレージスペースを占有することもありません。

ビデオチュートリアルのリファレンス:

【OpenBayes公式チュートリアル】組織連携_bilibili_bilibili

詳細なドキュメントについては、以下を参照してください。https://1lh.cc/v2ao4q

また、OpenBayes プラットフォームは、500 を超える厳選された公開データセット、モデル、チュートリアル、その他の高品質のリソースも提供します。「パブリックリソース」モジュールに統合されています。

非常に高速なバインディングを今すぐ体験するには、次のサイトにアクセスしてください。

https://openbayes.com/console/login

乾いたもの！ワンクリックで 20 の非常に人気のある LLM 中国語データセットを入手

3年前

データセット

次の記事は、OpenBayes のベイズ計算、著者 Xiaobei からのものです。

OpenBayes ベイジアン計算.

OpenBayes は、中国を代表するハイパフォーマンスコンピューティングサービスプロバイダーであり、従来のソフトウェアエコロジーと機械学習モデルを新世代の異種チップに移植することで、より高速で使いやすいデータサイエンスコンピューティング製品を産業界や大学の科学研究に提供しています。 , 数十の大手産業企業や主要な科学研究機関にサービスを提供してきました。

親切なヒント:

直接リンク:

https://openbayes.com/console/public/datasets

1 Ape210K 中国の小学校レベルの数学の問題

※発行機関：西北大学袁福道AI研究室

※関連タグ：算術タスク、テキスト生成

* 直接使用します:https://hyper.ai/datasets/28445

2 Belle データセット

※発行機関：iFlytek、CCL、HFL

※関連タグ：テキスト生成、中国語

* 直接使用:https://hyper.ai/datasets/28451

3 中国分隊

中国語機械読解データセット

※関連タグ：抽出的な質疑応答、知的な質疑応答

* 直接使用:https://hyper.ai/datasets/28476

このデータセットは、V1.1 と V2.0 を含む、機械翻訳と手動修正を通じて元の Squad から変換された中国語の機械読解データセットです。

4 CMRC 2018 中国語機械読解評価データセット

※発行機関：iFlytek、CCL、HFL

※関連タグ：テキストの生成

* 直接使用:https://hyper.ai/datasets/28470

5 クロスウォズタスク指向の対話データセット

※発行機関：清華大学、BNRIST

※関連タグ：質疑応答データセット、中国語

* 直接使用:https://hyper.ai/datasets/28442

6 DRCD デルタ読解データセット

※発行機関：デルタエレクトロニクス社デルタ研究センター

※関連タグ：テキスト検出、機械学習

* 直接使用:https://hyper.ai/datasets/28473

7 Douban 会話コーパス豆板会話コーパス

※発行機関：北航大学、南開大学、MSR

※関連タグ：質疑応答分析、自然言語処理

* 直接使用:https://hyper.ai/datasets/28497

8 デュリーダー質問と回答のデータセット

※発行機関：百度

※関連タグ：質問と回答のデータセット、インテリジェントな質問と回答

* 直接使用:https://hyper.ai/datasets/28461

9 E-KAR中国語版解釈可能な知識集約型の類推ベンチマーク

※発行機関：復旦大学、ByteDance AI Lab、Brain Technologies, Inc.

※関連タグ：テキスト生成、自然言語処理

* 直接使用:https://hyper.ai/datasets/28517

10 FCGEC 中国語文法の誤り検出および修正データセット

※発行機関：浙江大学、ファーウェイ

※関連タグ：テキスト検出

* 直接使用:https://hyper.ai/datasets/28512

11 KdConv 中国語のマルチドメイン会話データセット

※発行機関：清華大学

※関連タグ：テキストの生成

* 直接使用:https://hyper.ai/datasets/28507

12 数学23K 数学単語データセット

※発行機関：テンセントAIラボ

※関連タグ：コーパス、数学の問題

* 直接使用:https://hyper.ai/datasets/28504

13 メッドダイアログ中国の医師と患者の対話データセット

※関連タグ：医学研究、会話データセット

* 直接使用:https://hyper.ai/datasets/28483

MedDialog は、医師と患者の間の 110 万件の会話と 400 万件の発話を含む大規模な医療会話データセットです。

14 ODSQA オープンドメインの音声によるインテリジェントな質問と回答のデータセット

※発行機関：国立台湾大学

※関連タグ：インテリジェントな質問応答、自然言語処理

* 直接使用:https://hyper.ai/datasets/28500

ODSQA データセットは、中国語の質疑応答用の音声言語データセットです。20 人の異なる講演者からの 3,000 を超える質問が含まれています。

15 レッドGPT 事実に基づく会話データセットを自動的に生成

※関連タグ：テキスト生成、自然言語処理

* 直接使用:https://hyper.ai/datasets/28448

16 国連対訳コーパス国連対訳コーパス v1.0

※発行機関：清華大学、BNRIST

※関連タグ：質疑応答データセット、中国語

* 直接使用:https://hyper.ai/datasets/28464

17 VQA 視覚的な質問応答データセット

※関連タグ：ビジュアル質疑応答、質疑応答データセット

* 直接使用:https://hyper.ai/datasets/28455

18 WebQA v1.0 Baidu 中国語の質問と回答のデータセット

※発行機関：百度

※関連タグ：ディープラーニング、インテリジェントな質疑応答

* 直接使用:https://hyper.ai/datasets/28467

19 XiaChuFangレシピコーパスローワーキッチンレシピコーパス

※関連タグ：テキスト認識、テキスト検出

* 直接使用:https://1lh.cc/4jaL8b

* 直接使用:https://hyper.ai/datasets/28489

20 XQAD クロスランゲージ質問応答データセット

※発行機関：iFlytek、CCL、HFL

※関連タグ：質問と回答の分析、読解

* 直接使用:https://hyper.ai/datasets/28458

上記データセットをワンクリックで入力

ビデオチュートリアルのリファレンス:

【OpenBayes公式チュートリアル】組織連携_bilibili_bilibili

詳細なドキュメントについては、以下を参照してください。https://1lh.cc/v2ao4q

非常に高速なバインディングを今すぐ体験するには、次のサイトにアクセスしてください。

https://openbayes.com/console/login

Command Palette

乾いたもの！ ワンクリックで 20 の非常に人気のある LLM 中国語データ セットを入手

1 Ape210K 中国の小学校レベルの数学の問題

2 Belle データセット

3 中国分隊

4 CMRC 2018 中国語機械読解評価データセット

5 クロスウォズ タスク指向の対話データセット

6 DRCD デルタ読解データセット

7 Douban 会話コーパス 豆板会話コーパス

8 デュリーダー 質問と回答のデータセット

9 E-KAR中国語版 解釈可能な知識集約型の類推ベンチマーク

10 FCGEC 中国語文法の誤り検出および修正データセット

11 KdConv 中国語のマルチドメイン会話データセット

12 数学23K 数学単語データセット

13 メッドダイアログ 中国の医師と患者の対話データセット

14 ODSQA オープンドメインの音声によるインテリジェントな質問と回答のデータ セット

15 レッドGPT 事実に基づく会話データセットを自動的に生成

16 国連対訳コーパス 国連対訳コーパス v1.0

17 VQA 視覚的な質問応答データセット

18 WebQA v1.0 Baidu 中国語の質問と回答のデータ セット

19 XiaChuFangレシピコーパス ローワーキッチンレシピコーパス

20 XQAD クロスランゲージ質問応答データセット

Command Palette

乾いたもの！ ワンクリックで 20 の非常に人気のある LLM 中国語データ セットを入手

1 Ape210K 中国の小学校レベルの数学の問題

2 Belle データセット

3 中国分隊

4 CMRC 2018 中国語機械読解評価データセット

5 クロスウォズ タスク指向の対話データセット

6 DRCD デルタ読解データセット

7 Douban 会話コーパス 豆板会話コーパス

8 デュリーダー 質問と回答のデータセット

9 E-KAR中国語版 解釈可能な知識集約型の類推ベンチマーク

10 FCGEC 中国語文法の誤り検出および修正データセット

11 KdConv 中国語のマルチドメイン会話データセット

12 数学23K 数学単語データセット

13 メッドダイアログ 中国の医師と患者の対話データセット

14 ODSQA オープンドメインの音声によるインテリジェントな質問と回答のデータ セット

15 レッドGPT 事実に基づく会話データセットを自動的に生成

16 国連対訳コーパス 国連対訳コーパス v1.0

17 VQA 視覚的な質問応答データセット

18 WebQA v1.0 Baidu 中国語の質問と回答のデータ セット

19 XiaChuFangレシピコーパス ローワーキッチンレシピコーパス

20 XQAD クロスランゲージ質問応答データセット

関連 ニュース

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

データセット集｜医用画像データ／臨床データから細胞アトラス／医療Q&Aまで、複数の疾患シナリオを網羅する10の主要データセット

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

オンラインチュートリアル｜600以上の言語に対応、XiaomiがOmniVoiceをオープンソース化：わずか3～10秒の参照音声で音声クローンを実現

オンラインチュートリアル｜41,000個のスターを獲得：香港大学のチームが、OpenClawの中核機能を4,000行のコードで実装した超軽量AIアシスタントナノボットをオープンソース化。

OpenAIは、129の質問と10の分野にわたるAI研究能力を評価するGeneBench-Proをリリースした。

Command Palette

乾いたもの！ ワンクリックで 20 の非常に人気のある LLM 中国語データ セットを入手

1 Ape210K 中国の小学校レベルの数学の問題

2 Belle データセット

3 中国分隊

4 CMRC 2018 中国語機械読解評価データセット

5 クロスウォズ タスク指向の対話データセット

6 DRCD デルタ読解データセット

7 Douban 会話コーパス 豆板会話コーパス

8 デュリーダー 質問と回答のデータセット

9 E-KAR中国語版 解釈可能な知識集約型の類推ベンチマーク

10 FCGEC 中国語文法の誤り検出および修正データセット

11 KdConv 中国語のマルチドメイン会話データセット

12 数学23K 数学単語データセット

13 メッドダイアログ 中国の医師と患者の対話データセット

14 ODSQA オープンドメインの音声によるインテリジェントな質問と回答のデータ セット

15 レッドGPT 事実に基づく会話データセットを自動的に生成

16 国連対訳コーパス 国連対訳コーパス v1.0

17 VQA 視覚的な質問応答データセット

18 WebQA v1.0 Baidu 中国語の質問と回答のデータ セット

19 XiaChuFangレシピコーパス ローワーキッチンレシピコーパス

20 XQAD クロスランゲージ質問応答データセット

関連 ニュース

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

データセット集｜医用画像データ／臨床データから細胞アトラス／医療Q&Aまで、複数の疾患シナリオを網羅する10の主要データセット

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

オンラインチュートリアル｜600以上の言語に対応、XiaomiがOmniVoiceをオープンソース化：わずか3～10秒の参照音声で音声クローンを実現

乾いたもの！ワンクリックで 20 の非常に人気のある LLM 中国語データセットを入手

5 クロスウォズタスク指向の対話データセット

7 Douban 会話コーパス豆板会話コーパス

8 デュリーダー質問と回答のデータセット

9 E-KAR中国語版解釈可能な知識集約型の類推ベンチマーク

13 メッドダイアログ中国の医師と患者の対話データセット

14 ODSQA オープンドメインの音声によるインテリジェントな質問と回答のデータセット

16 国連対訳コーパス国連対訳コーパス v1.0

18 WebQA v1.0 Baidu 中国語の質問と回答のデータセット

19 XiaChuFangレシピコーパスローワーキッチンレシピコーパス

乾いたもの！ワンクリックで 20 の非常に人気のある LLM 中国語データセットを入手

5 クロスウォズタスク指向の対話データセット

7 Douban 会話コーパス豆板会話コーパス

8 デュリーダー質問と回答のデータセット

9 E-KAR中国語版解釈可能な知識集約型の類推ベンチマーク

13 メッドダイアログ中国の医師と患者の対話データセット

14 ODSQA オープンドメインの音声によるインテリジェントな質問と回答のデータセット

16 国連対訳コーパス国連対訳コーパス v1.0

18 WebQA v1.0 Baidu 中国語の質問と回答のデータセット

19 XiaChuFangレシピコーパスローワーキッチンレシピコーパス

関連ニュース

乾いたもの！ワンクリックで 20 の非常に人気のある LLM 中国語データセットを入手

5 クロスウォズタスク指向の対話データセット

7 Douban 会話コーパス豆板会話コーパス

8 デュリーダー質問と回答のデータセット

9 E-KAR中国語版解釈可能な知識集約型の類推ベンチマーク

13 メッドダイアログ中国の医師と患者の対話データセット

14 ODSQA オープンドメインの音声によるインテリジェントな質問と回答のデータセット

16 国連対訳コーパス国連対訳コーパス v1.0

18 WebQA v1.0 Baidu 中国語の質問と回答のデータセット

19 XiaChuFangレシピコーパスローワーキッチンレシピコーパス

関連ニュース

関連ニュース

関連ニュース