HyperAI超神经

ここ2年、大型モデルの人気は高まり続け、より幅広い分野で検討され始めています。業界全体の急速な発展に伴い、ますます多くのオープンソースの大規模モデルが市場に流入し、上位層アプリケーションの拡大がさらに促進されています。

開発者にとって、高品質の大規模モデルとデータセットを選択することは、その後の研究開発やモデルの微調整にとって非常に重要です。誰もが開発ニーズを満たすモデルとデータセットを選択してダウンロードできるようにするために、HyperAI Super Neural は、大規模なモデル関連のリソースをすべての人のために要約しました。

* 高品質の公開データセット: 15

* 高品質のオープンソースモデル: 15

*厳選された高品質なチュートリアル: 8

さらに大きなモデルのリソースについては、公式 Web サイトをご覧ください。:ハイパーアイ

データセットの選択

1. seq-monkey シーケンスモンキーオープンソースデータセット 1.0

Sequence Monkey データセットは、Sequence Monkey モデルのトレーニングに使用されるデータセットです。関連するフィールドには、中国語の一般テキストコーパス、古詩および現代語訳コーパス、テキスト生成コーパスが含まれます。

直接使用します:https://hyper.ai/datasets/30139

2.IEPile大規模情報抽出コーパス

IEPile は、浙江大学によって開発された大規模で高品質のバイリンガル (中国語と英語) の情報抽出 (IE) 命令微調整データセットで、医療や金融などの複数の分野をカバーしています。

直接使用します:https://hyper.ai/datasets/30064

3. LongAlign-10K 大規模モデルの長いコンテキストアライメントデータセット

LongAlign-10k は、清華大学によって提案された、長いコンテキストアライメントタスクで大規模なモデルが直面する課題に対処するために設計されたデータセットであり、長さ 8k ～ 64k の長い命令データが含まれています。

直接使用します:https://hyper.ai/datasets/30247

4. 点平データセット

このデータセットには、54 万人のユーザーによる 24 万軒のレストランに関する 440 万件のレビューまたは評価が含まれています。レコメンドシステム、感情・意見・コメント傾向分析などのタスクに使用できます。

直接使用します:https://hyper.ai/datasets/29993

5.Amazonユーザーレビューデータセット

このデータセットには、Amazon Web サイト上の 1,100 以上のカテゴリ、52 万の製品に関する 142 万人のユーザーからの 720 万件のレビューまたは評価データが含まれており、推奨システムやセンチメント/意見/レビューの傾向分析などのタスクに使用できます。

直接使用します:https://hyper.ai/datasets/30009

6. PD&CFT人民日報の中国語読解データセット

このデータセットは、人民日報と童話 (PD&CFT) を含む初の中国語読解データセットです。

直接使用します:https://hyper.ai/datasets/29260

7. Toutiao 中国語テキスト分類データセット

このデータセットは、Toutiao 中国語ニュース (短文) 分類データセットです。データソースはToutiaoクライアントです。 15のカテゴリと合計382,688のテキストを収録。

直接使用します:https://hyper.ai/datasets/29517

8.FewJoint ベンチマークデータセット

このデータセットは iFlytek AIUI オープンプラットフォームから取得されており、実際のユーザーのコーパスと専門家によって構築されたコーパス (比率は約 3:7) が含まれており、合計 59 の実際のドメインが最も多く含まれている対話データセットの 1 つです。現在のドメイン。

直接使用します:https://hyper.ai/datasets/29239

9. PAWS-X: 言い換え認識のための言語を超えた敵対的データセット

このデータセットには、フランス語、スペイン語、ドイツ語、中国語、日本語、韓国語の 6 つの言語で人間が翻訳した 23,659 個の PAWS 評価ペアと、機械翻訳された 296,406 個のトレーニングペアが含まれています。すべての翻訳ペアは PAWS-Wiki の例から派生しています。

直接使用します:https://hyper.ai/datasets/29264

10. ウィキペディアウィキペディアデータセット

データセットは Wikipedia ダンプから構築されており、56 の言語が含まれており、各言語のサブセットと各サブセットのトレーニング分割が含まれています。各例には、完全な Wikipedia 記事の内容が含まれており、マークアップや不要なセクション (参考文献など) が削除されています。

直接使用します:https://hyper.ai/datasets/28528

11. RJUA-QA は、中国初の医療専門質問と回答推論データセットです。

RJUA-QA データセットには、合計 2,132 の質問と回答のペアが含まれています。各質問と回答のペアは、臨床経験に基づいて医師によって作成された質問、専門家によって提供された回答、および関連する推論コンテキストで構成されています。このコンテキスト情報は中国語に由来しています。泌尿器科および男性器科の疾患の診断と治療のガイドライン。

直接使用します:https://hyper.ai/datasets/28970

12. ShareGPT 90k 中国語と英語のバイリンガルヒューマンマシンの質問と回答のデータセット

ShareGPT- Chinese-English-90k は、中国語と英語の対訳バイリンガルの高品質なヒューマンマシンの質問と回答のデータセットで、実際の複雑なシナリオにおけるユーザーの質問をカバーします。高品質の対話モデルをトレーニングするために使用できます。

直接使用します:

https://hyper.ai/datasets/29523

13. SMP-2017 中国語会話意図認識データセット

このデータセットは、SMP2017 中国語ヒューマンコンピュータ対話技術評価 (ECDT) タスク 1 データセットです。

直接使用します:https://hyper.ai/datasets/29515

14. 漢詩中国古典詩集データベース

このデータセットは、55,000 の唐の詩、260,000 の歌の歌詞、21,000 の歌の歌詞、その他の古典コレクションを含む、最も完全な中国古典コレクションデータベースです。

直接使用します:https://hyper.ai/datasets/29257

15. MCFEND 中国におけるフェイクニュース検出のためのマルチソースベンチマークデータセット

このデータセットは、香港バプテスト大学、香港中文大学、その他の機関が共同で構築したマルチソースの中国フェイクニュース検出ベンチマークデータセットです。

直接使用します:https://hyper.ai/datasets/30429

その他の公開データセットについては、次のサイトをご覧ください。:

https://hyper.ai/datasets

幅広いモデルの選択

1. ミストラル-8x7B

このモデルは、Mistral 7B に基づいて Mistral AI によって起動された大規模な言語モデルです。

直接使用します:https://openbayes.com/console/public/models/f1Ze9ci0tAZ/1/overview

2. C4AIコマンド-R

C4AI Command-R は、Cohere と Cohere For AI が共同開発した 350 億パラメータの高性能生成モデルです。多言語生成機能と高性能 RAG 機能の組み合わせにより、Command-R は言語をまたぐタスクや知識集約型タスクにおいて独自の利点をもたらします。

直接使用します:https://openbayes.com/console/public/models/moNFtsf3XUe/1/overview

3. 大規模な財務モデル deepmoney-34B-chat

モデルは Yi-34B-200K に基づいてトレーニングされ、pt (フルパラメータートレーニング) と sft (lora 微調整) の 2 つの段階に分かれています。

直接使用します:https://openbayes.com/console/public/models/yiEoQipyFCK/1/overview

4. チャットGLM3シリーズ

ChatGLM3 は、Zhipu AI と清華大学 KEG 研究室が共同でリリースした対話事前トレーニングモデルです。

チャットGLM3-6B

このモデルは ChatGLM3 シリーズのオープンソースモデルであり、スムーズな対話や低い導入しきい値など、前 2 世代のモデルの多くの優れた機能を保持しています。

直接使用します:https://openbayes.com/console/public/models/mHwG5TYJVTU/1/overview

チャットGLM3-6B-Base

このモデルは ChatGLM3-6B の基本モデルであり、より多様なトレーニングデータ、より十分なトレーニングステップ、およびより合理的なトレーニング戦略を使用します。

直接使用します:https://openbayes.com/console/public/models/7CzPfTweYvU/1/overview

5. LLaVA-v1.5シリーズ

LLaVA は、ビジュアルエンコーダと大規模言語モデル (Vicuna v1.5 13B) から構成される、ビジュアルと言語のマルチモーダル変換が可能なモデルです。

LLaVA-v1.5-7B

このモデルは、LLaVA-v1.5 シリーズの 70 億パラメータスケールモデルです。

直接使用します:https://openbayes.com/console/public/models/ZRdv9aF1hGF/1/overview

LLaVA-v1.5-13B

このモデルは、LLaVA-v1.5 シリーズの 130 億パラメータスケールモデルです。

直接使用します:https://openbayes.com/console/public/models/PagJNrY85MC/1/overview

6.Yi-34Bシリーズ

Yi シリーズモデルは、01.AI によって最初からトレーニングされたオープンソースの大規模言語モデルです。次のモデルシリーズは、その 34B サイズモデルの関連モデルです。

Yi-34B-チャット

さまざまな会話シーンに適したYi-34Bシリーズのチャットモデルです。

直接使用します:https://openbayes.com/console/public/models/6FUjDvKGZNT/1/overview

Yi-34B-チャット-GGUF

モデルは Yi-34B-Chat の GGUF 形式です。

直接使用します:https://openbayes.com/console/public/models/1QqoTcU07zG/1/overview

Yi-34B-チャット-4bits

このモデルは、Yi-34B-Chat モデルの 4 ビット量子化バージョンであり、民生用グラフィックカード (RTX3090 など) で直接使用できます。

直接使用します:https://openbayes.com/console/public/models/JJCjA8x48ev/1/overview

7. Qwen Tongyi Qianwen 大型モデルシリーズ

Qwen は、Alibaba Cloud によって開始された一連の超大規模言語モデルであり、パラメーターの数が異なるさまざまなモデルが含まれています。これには、Qwen (事前トレーニング済みの基本言語モデル) と Qwen-Chat (チャットモデル) が含まれており、チャットモデルはヒューマンアライメントテクノロジを使用して微調整されています。

Qwen1.5-1.8B-チャット

Qwen1.5 は Qwen2 のベータ版であり、Qwen2 シリーズのチャットモデルのパラメータサイズが 18 億の小さいバージョンです。

直接使用します:

https://openbayes.com/console/public/models/A83bxItlb1M/1/overview

Qwen-14B-Chat-Int4

Qwen-14B-Chat は、Tongyi Qianwen ラージモデルシリーズの 140 億パラメータスケールのチャットモデルであり、Int4 量子化モデルです。

直接使用します:https://openbayes.com/console/public/models/tlA61MKMb7C/1/overview

Qwen-72B-チャット

このモデルは、Tongyi Qianwen 大型モデルシリーズの 720 億パラメータのスケールモデルです。

直接使用します:https://openbayes.com/console/public/models/IyhI1wCMCvU/1/overview

Qwen-72B-Chat-Int4

このモデルは、Qwen-72B-Chat の Int4 量子化モデルです。

直接使用します:https://openbayes.com/console/public/models/XVAkUec0H5e/1/overview

Qwen-72B-Chat-Int8

このモデルは、Qwen-72B-Chat の Int8 量子化モデルです。

直接使用します:https://openbayes.com/console/public/models/LEnvRTil8Xe/1/overview

高品質なチュートリアルのセレクション

1.Tongyi Qianwen Qwen1.5-MoE をオンラインで実行します

Qwen1.5-MoE-A2.7B は、Tongyi Qianwen チームによって開始された Qwen シリーズの最初の MoE モデルです。このチュートリアルはそのデモコンテナであり、ワンクリックで複製して Gradio リンクを使用して大規模なモデルを体験できます。

オンラインで実行:https://openbayes.com/console/public/tutorials/1xfftSx42TR

2. Qwen-14B-Chat-Int4 モデルの Gradio デモ

このチュートリアルは Qwen-14B-Chat-Int4 のデモコンテナです。ワンクリックで複製し、Gradio リンクを使用して大規模なモデルを体験できます。

オンラインで実行:https://openbayes.com/console/public/tutorials/hqe2P86oMDA

3. Qwen-1.8B-Chat-API-FT モデルのデモ

このチュートリアルでは、主に Tongyi Qianwen Qwen-1.8B-Chat モデルの実行方法と微調整の主なプロセスを説明します。

オンラインで実行:https://openbayes.com/console/public/tutorials/C8OUoAlBR1m

4. Qwen-72B-Chat-Int4 ModelGradio デモ

このチュートリアルは Qwen-72B-Chat-Int4 のデモコンテナです。ワンクリックで複製し、Gradio リンクを使用して大規模なモデルを体験できます。

オンラインで実行:https://openbayes.com/console/public/tutorials/Gr4tiYYq24K

5. Yi-34B-Chat の定量モデルをオンラインで実行する

このチュートリアルでは主に、LlamaEdge を使用して Yi-34B-Chat の定量的モデルを実行する主なプロセスを説明します。

オンラインで実行:https://openbayes.com/console/public/tutorials/v6ZVAzejUCM

6. 大規模な財務モデル Deepmoney-34B-full をオンラインで実行する

Deepmoney は、金融分野への投資に焦点を当てた大規模な言語モデルプロジェクトです。 Deepmoney-34B-full は Yi-34B-200K モデルに基づいてトレーニングされており、pt (フルパラメータートレーニング) と sft (lora 微調整) の 2 つの段階に分かれています。 Super Neural 公式 Web サイトでワンクリックでクローンを作成して使用できるようになりました。

オンラインで実行:https://openbayes.com/console/public/tutorials/uBYYEnxdpce

7. ワンクリックで Yi-9B デモを実行

Yi-9B は現在、Yi シリーズモデルの中で最も強力なコーディング機能と数学的機能を備えたモデルです。このチュートリアルは Yi-9B のデモコンテナです。

オンラインで実行:https://openbayes.com/console/public/tutorials/BitjtzfuNLb

8. ChatGLM2-6B の迅速な導入

このチュートリアルは ChatGLM2-6B のデモコンテナであり、ワンクリックでクローンを作成し、Gradio リンクを使用して大規模なモデルを体験できます。

オンラインで実行:https://openbayes.com/console/public/tutorials/KD5azt9z9tn

上記は、大規模なモデルエディターによって選択されたすべてのコンテンツです。hyper.ai 公式 Web サイトに含めたいリソースがある場合は、お気軽にメッセージを残すか、私たちに知らせてください。

HyperAIについて Hyper.ai

HyperAI（hyper.ai）は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。

* 1,200 を超える公開データセットに対して国内の高速ダウンロードノードを提供

* 300 以上の古典的で人気のあるオンラインチュートリアルが含まれています

* 100 以上の AI4Science 論文ケースを解釈

* 500 以上の関連用語クエリをサポート

*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします

学習の旅を始めるには、公式 Web サイトにアクセスしてください。

https://hyper.ai

大規模なモデルリソースの超包括的コレクション｜30 の高品質な NLP データセットとモデル、8 つのデモがワンクリックで使用できるので、収集することをお勧めします。