大規模なモデルリソースの超包括的コレクション|30 の高品質な NLP データセットとモデル、8 つのデモがワンクリックで使用できるので、収集することをお勧めします。

特色图像

ここ2年、大型モデルの人気は高まり続け、より幅広い分野で検討され始めています。業界全体の急速な発展に伴い、ますます多くのオープンソースの大規模モデルが市場に流入し、上位層アプリケーションの拡大がさらに促進されています。

開発者にとって、高品質の大規模モデルとデータセットを選択することは、その後の研究開発やモデルの微調整にとって非常に重要です。誰もが開発ニーズを満たすモデルとデータセットを選択してダウンロードできるようにするために、HyperAI Super Neural は、大規模なモデル関連のリソースをすべての人のために要約しました。

* 高品質の公開データセット: 15

* 高品質のオープンソース モデル: 15

*厳選された高品質なチュートリアル: 8

さらに大きなモデルのリソースについては、公式 Web サイトをご覧ください。:ハイパーアイ

データセットの選択

1. seq-monkey シーケンス モンキー オープン ソース データ セット 1.0

Sequence Monkey データ セットは、Sequence Monkey モデルのトレーニングに使用されるデータ セットです。関連するフィールドには、中国語の一般テキスト コーパス、古詩および現代語訳コーパス、テキスト生成コーパスが含まれます。

直接使用します:https://hyper.ai/datasets/30139

2.IEPile大規模情報抽出コーパス 

IEPile は、浙江大学によって開発された大規模で高品質のバイリンガル (中国語と英語) の情報抽出 (IE) 命令微調整データ セットで、医療や金融などの複数の分野をカバーしています。

直接使用します:https://hyper.ai/datasets/30064

3. LongAlign-10K 大規模モデルの長いコンテキスト アライメント データ セット 

LongAlign-10k は、清華大学によって提案された、長いコンテキスト アライメント タスクで大規模なモデルが直面する課題に対処するために設計されたデータ セットであり、長さ 8k ~ 64k の長い命令データが含まれています。

直接使用します:https://hyper.ai/datasets/30247

4. 点平データセット

このデータ セットには、54 万人のユーザーによる 24 万軒のレストランに関する 440 万件のレビューまたは評価が含まれています。レコメンドシステム、感情・意見・コメント傾向分析などのタスクに使用できます。

直接使用します:https://hyper.ai/datasets/29993

5.Amazonユーザーレビューデータセット

このデータセットには、Amazon Web サイト上の 1,100 以上のカテゴリ、52 万の製品に関する 142 万人のユーザーからの 720 万件のレビューまたは評価データが含まれており、推奨システムやセンチメント/意見/レビューの傾向分析などのタスクに使用できます。

直接使用します:https://hyper.ai/datasets/30009

6. PD&CFT人民日報の中国語読解データセット 

このデータ セットは、人民日報と童話 (PD&CFT) を含む初の中国語読解データ セットです。

直接使用します:https://hyper.ai/datasets/29260

7. Toutiao 中国語テキスト分類データセット

このデータセットは、Toutiao 中国語ニュース (短文) 分類データセットです。データソースはToutiaoクライアントです。 15のカテゴリと合計382,688のテキストを収録。

直接使用します:https://hyper.ai/datasets/29517

8.FewJoint ベンチマーク データ セット 

このデータ セットは iFlytek AIUI オープン プラットフォームから取得されており、実際のユーザーのコーパスと専門家によって構築されたコーパス (比率は約 3:7) が含まれており、合計 59 の実際のドメインが最も多く含まれている対話データ セットの 1 つです。現在のドメイン。

直接使用します:https://hyper.ai/datasets/29239

9. PAWS-X: 言い換え認識のための言語を超えた敵対的データセット 

このデータセットには、フランス語、スペイン語、ドイツ語、中国語、日本語、韓国語の 6 つの言語で人間が翻訳した 23,659 個の PAWS 評価ペアと、機械翻訳された 296,406 個のトレーニング ペアが含まれています。すべての翻訳ペアは PAWS-Wiki の例から派生しています。

直接使用します:https://hyper.ai/datasets/29264

10. ウィキペディア ウィキペディア データセット

データセットは Wikipedia ダンプから構築されており、56 の言語が含まれており、各言語のサブセットと各サブセットのトレーニング分割が含まれています。各例には、完全な Wikipedia 記事の内容が含まれており、マークアップや不要なセクション (参考文献など) が削除されています。

直接使用します:https://hyper.ai/datasets/28528

11. RJUA-QA は、中国初の医療専門質問と回答推論データセットです。 

RJUA-QA データ セットには、合計 2,132 の質問と回答のペアが含まれています。各質問と回答のペアは、臨床経験に基づいて医師によって作成された質問、専門家によって提供された回答、および関連する推論コンテキストで構成されています。このコンテキスト情報は中国語に由来しています。泌尿器科および男性器科の疾患の診断と治療のガイドライン。

直接使用します:https://hyper.ai/datasets/28970

12. ShareGPT 90k 中国語と英語のバイリンガル ヒューマン マシンの質問と回答のデータ セット 

ShareGPT- Chinese-English-90k は、中国語と英語の対訳バイリンガルの高品質なヒューマン マシンの質問と回答のデータ セットで、実際の複雑なシナリオにおけるユーザーの質問をカバーします。高品質の対話モデルをトレーニングするために使用できます。

直接使用します:

https://hyper.ai/datasets/29523

13. SMP-2017 中国語会話意図認識データセット

このデータ セットは、SMP2017 中国語ヒューマン コンピュータ対話技術評価 (ECDT) タスク 1 データ セットです。

直接使用します:https://hyper.ai/datasets/29515

14. 漢詩 中国古典詩集データベース

このデータ セットは、55,000 の唐の詩、260,000 の歌の歌詞、21,000 の歌の歌詞、その他の古典コレクションを含む、最も完全な中国古典コレクション データベースです。

直接使用します:https://hyper.ai/datasets/29257

15. MCFEND 中国におけるフェイクニュース検出のためのマルチソースベンチマークデータセット

このデータセットは、香港バプテスト大学、香港中文大学、その他の機関が共同で構築したマルチソースの中国フェイクニュース検出ベンチマークデータセットです。

直接使用します:https://hyper.ai/datasets/30429

その他の公開データセットについては、次のサイトをご覧ください。:

https://hyper.ai/datasets

幅広いモデルの選択

1. ミストラル-8x7B

このモデルは、Mistral 7B に基づいて Mistral AI によって起動された大規模な言語モデルです。

直接使用します:https://openbayes.com/console/public/models/f1Ze9ci0tAZ/1/overview

2. C4AIコマンド-R

C4AI Command-R は、Cohere と Cohere For AI が共同開発した 350 億パラメータの高性能生成モデルです。多言語生成機能と高性能 RAG 機能の組み合わせにより、Command-R は言語をまたぐタスクや知識集約型タスクにおいて独自の利点をもたらします。

直接使用します:https://openbayes.com/console/public/models/moNFtsf3XUe/1/overview

3. 大規模な財務モデル deepmoney-34B-chat

モデルは Yi-34B-200K に基づいてトレーニングされ、pt (フル パラメーター トレーニング) と sft (lora 微調整) の 2 つの段階に分かれています。

直接使用します:https://openbayes.com/console/public/models/yiEoQipyFCK/1/overview

4. チャットGLM3シリーズ

ChatGLM3 は、Zhipu AI と清華大学 KEG 研究室が共同でリリースした対話事前トレーニング モデルです。

チャットGLM3-6B

このモデルは ChatGLM3 シリーズのオープンソース モデルであり、スムーズな対話や低い導入しきい値など、前 2 世代のモデルの多くの優れた機能を保持しています。

直接使用します:https://openbayes.com/console/public/models/mHwG5TYJVTU/1/overview

チャットGLM3-6B-Base

このモデルは ChatGLM3-6B の基本モデルであり、より多様なトレーニング データ、より十分なトレーニング ステップ、およびより合理的なトレーニング戦略を使用します。

直接使用します:https://openbayes.com/console/public/models/7CzPfTweYvU/1/overview

5. LLaVA-v1.5シリーズ

LLaVA は、ビジュアルエンコーダと大規模言語モデル (Vicuna v1.5 13B) から構成される、ビジュアルと言語のマルチモーダル変換が可能なモデルです。

LLaVA-v1.5-7B

このモデルは、LLaVA-v1.5 シリーズの 70 億パラメータ スケール モデルです。

直接使用します:https://openbayes.com/console/public/models/ZRdv9aF1hGF/1/overview

LLaVA-v1.5-13B

このモデルは、LLaVA-v1.5 シリーズの 130 億パラメータ スケール モデルです。

直接使用します:https://openbayes.com/console/public/models/PagJNrY85MC/1/overview

6.Yi-34Bシリーズ

Yi シリーズ モデルは、01.AI によって最初からトレーニングされたオープンソースの大規模言語モデルです。次のモデル シリーズは、その 34B サイズ モデルの関連モデルです。

Yi-34B-チャット

さまざまな会話シーンに適したYi-34Bシリーズのチャットモデルです。

直接使用します:https://openbayes.com/console/public/models/6FUjDvKGZNT/1/overview

Yi-34B-チャット-GGUF

モデルは Yi-34B-Chat の GGUF 形式です。

直接使用します:https://openbayes.com/console/public/models/1QqoTcU07zG/1/overview

Yi-34B-チャット-4bits

このモデルは、Yi-34B-Chat モデルの 4 ビット量子化バージョンであり、民生用グラフィック カード (RTX3090 など) で直接使用できます。

直接使用します:https://openbayes.com/console/public/models/JJCjA8x48ev/1/overview

7. Qwen Tongyi Qianwen 大型モデル シリーズ

Qwen は、Alibaba Cloud によって開始された一連の超大規模言語モデルであり、パラメーターの数が異なるさまざまなモデルが含まれています。これには、Qwen (事前トレーニング済みの基本言語モデル) と Qwen-Chat (チャット モデル) が含まれており、チャット モデルはヒューマン アライメント テクノロジを使用して微調整されています。

Qwen1.5-1.8B-チャット

Qwen1.5 は Qwen2 のベータ版であり、Qwen2 シリーズのチャット モデルのパラメータ サイズが 18 億の小さいバージョンです。

直接使用します:

https://openbayes.com/console/public/models/A83bxItlb1M/1/overview

Qwen-14B-Chat-Int4

Qwen-14B-Chat は、Tongyi Qianwen ラージ モデル シリーズの 140 億パラメータ スケールのチャット モデルであり、Int4 量子化モデルです。

直接使用します:https://openbayes.com/console/public/models/tlA61MKMb7C/1/overview

Qwen-72B-チャット

このモデルは、Tongyi Qianwen 大型モデル シリーズの 720 億パラメータのスケール モデルです。

直接使用します:https://openbayes.com/console/public/models/IyhI1wCMCvU/1/overview

Qwen-72B-Chat-Int4

このモデルは、Qwen-72B-Chat の Int4 量子化モデルです。

直接使用します:https://openbayes.com/console/public/models/XVAkUec0H5e/1/overview

Qwen-72B-Chat-Int8

このモデルは、Qwen-72B-Chat の Int8 量子化モデルです。

直接使用します:https://openbayes.com/console/public/models/LEnvRTil8Xe/1/overview

高品質なチュートリアルのセレクション

1.Tongyi Qianwen Qwen1.5-MoE をオンラインで実行します

Qwen1.5-MoE-A2.7B は、Tongyi Qianwen チームによって開始された Qwen シリーズの最初の MoE モデルです。このチュートリアルはそのデモ コンテナであり、ワンクリックで複製して Gradio リンクを使用して大規模なモデルを体験できます。

オンラインで実行:https://openbayes.com/console/public/tutorials/1xfftSx42TR

2. Qwen-14B-Chat-Int4 モデルの Gradio デモ

このチュートリアルは Qwen-14B-Chat-Int4 のデモ コンテナです。ワンクリックで複製し、Gradio リンクを使用して大規模なモデルを体験できます。

オンラインで実行:https://openbayes.com/console/public/tutorials/hqe2P86oMDA

3. Qwen-1.8B-Chat-API-FT モデルのデモ

このチュートリアルでは、主に Tongyi Qianwen Qwen-1.8B-Chat モデルの実行方法と微調整の主なプロセスを説明します。

オンラインで実行:https://openbayes.com/console/public/tutorials/C8OUoAlBR1m

4. Qwen-72B-Chat-Int4 ModelGradio デモ

このチュートリアルは Qwen-72B-Chat-Int4 のデモ コンテナです。ワンクリックで複製し、Gradio リンクを使用して大規模なモデルを体験できます。

オンラインで実行:https://openbayes.com/console/public/tutorials/Gr4tiYYq24K

5. Yi-34B-Chat の定量モデルをオンラインで実行する

このチュートリアルでは主に、LlamaEdge を使用して Yi-34B-Chat の定量的モデルを実行する主なプロセスを説明します。

オンラインで実行:https://openbayes.com/console/public/tutorials/v6ZVAzejUCM

6. 大規模な財務モデル Deepmoney-34B-full をオンラインで実行する

Deepmoney は、金融分野への投資に焦点を当てた大規模な言語モデル プロジェクトです。 Deepmoney-34B-full は Yi-34B-200K モデルに基づいてトレーニングされており、pt (フル パラメーター トレーニング) と sft (lora 微調整) の 2 つの段階に分かれています。 Super Neural 公式 Web サイトでワンクリックでクローンを作成して使用できるようになりました。

オンラインで実行:https://openbayes.com/console/public/tutorials/uBYYEnxdpce

7. ワンクリックで Yi-9B デモを実行

Yi-9B は現在、Yi シリーズ モデルの中で最も強力なコーディング機能と数学的機能を備えたモデルです。このチュートリアルは Yi-9B のデモ コンテナです。

オンラインで実行:https://openbayes.com/console/public/tutorials/BitjtzfuNLb

8. ChatGLM2-6B の迅速な導入

このチュートリアルは ChatGLM2-6B のデモ コンテナであり、ワンクリックでクローンを作成し、Gradio リンクを使用して大規模なモデルを体験できます。

オンラインで実行:https://openbayes.com/console/public/tutorials/KD5azt9z9tn

上記は、大規模なモデル エディターによって選択されたすべてのコンテンツです。hyper.ai 公式 Web サイトに含めたいリソースがある場合は、お気軽にメッセージを残すか、私たちに知らせてください。

HyperAIについて Hyper.ai

HyperAI(hyper.ai)は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。

* 1,200 を超える公開データセットに対して国内の高速ダウンロード ノードを提供

* 300 以上の古典的で人気のあるオンライン チュートリアルが含まれています

* 100 以上の AI4Science 論文ケースを解釈

* 500 以上の関連用語クエリをサポート

*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします

学習の旅を始めるには、公式 Web サイトにアクセスしてください。

https://hyper.ai