Weekly Editor's Picks｜FewJoint ベンチマークデータセットがオンライン、科学技術省監督局が新たな AI 規制を発表

フューショット学習とは、人間のような非常に少数のサンプルを通じて新しいタスクを学習し習得する能力を指します。この分野は機械学習コミュニティの注目の分野となっており、機械知能を人間の知能に近づける重要な方向性の 1 つであると考えられています。ハルビン工業大学は、NLP 小規模サンプル評価の公開評価ベンチマークを提供する FewJoint ベンチマークデータセットを開始しました。このデータセットは hyper.ai で公開されています。Hyper.ai には、ダウンロードできる中国語の大規模モデルトレーニング用の NLP データセットも多数あります。見てみましょう。

1 月 29 日から 2 月 2 日までの hyper.ai 公式 Web サイトの更新の概要:

※高品質な公開データセット：10件

※AI4S紙ケース：3枚

* 人気のある百科事典のエントリ: 10

公式ウェブサイトにアクセスしてください:ハイパーアイ

公開データセットの選択

1. FewJoint の小規模サンプルベンチマークデータセット

FewJoint ベンチマークデータセットは、実際のユーザーコーパスと、iFlytek AIUI オープンプラットフォーム上で専門家が構築したコーパスから取得されます (比率は約 3:7)。これには、59 の実際のフィールドが含まれており、現在最も多くのフィールドを含むダイアログデータセットの 1 つです。。

直接使用します:

https://hyper.ai/datasets/29239

2. 100 PoisonMpts 中国の大規模モデルガバナンスデータセット

100 PoisonMpts は、業界初の大規模言語モデルガバナンスオープンソース中国語データセットで、数十人の著名な専門家や学者が「AI 用の 100 本の毒」アノテーションエンジニアの最初のグループを形成しています。アノテーターはそれぞれ、偏見や差別的な回答を誘発する100のトリッキーな質問をし、大規模モデルの回答にアノテーションを付けることで、AIによる「中毒」と「解毒」の攻撃と防御を完成させた。

直接使用します:

https://hyper.ai/datasets/29203

3. CLUE中国語理解評価ベンチマークデータセット

CLUE (中国語理解評価ベンチマーク) は、中国語文法理解タスクのトレーニング、検証、テストに使用されるデータセットです。

直接使用します:

https://hyper.ai/datasets/29094

4. ウィキペディアウィキペディアデータセット

データセットは Wikipedia ダンプから構築されており、言語ごとに 1 つのサブセットがあり、各サブセットは列分割によって結合されています。各例には、完全な Wikipedia 記事のコンテンツが含まれており、マークアップや不要な部分 (「参考文献」など) が削除されています。

直接使用します:

https://hyper.ai/datasets/28528

5. CCI 中国語インターネットコーパス

Chinese Corpora Internet (CCI) は、中国本土のインターネット Web サイトからの高品質で信頼できるソースで構成されています。 CCI では、厳格なデータクリーニングと重複排除が行われ、コンテンツ品質の観点から対象を絞った検出とフィルタリングが実行されます。

直接使用します:

https://hyper.ai/datasets/29186

6. PKU 簡体字中国語単語セグメンテーションデータセット

SIGHAN 2005 データセット国際中国語自動単語分割評価 (SIGHAN 評価と呼ばれる) は、複数の機関からの単語分割データセットを統合しています。このデータセットは、Microsoft Research China、北京大学、香港城市大学、台湾の中央研究院によって共同リリースされ、中国語単語セグメンテーションモデルのトレーニングと評価に使用されます。このうち、PKU は簡体字中国語の単語セグメンテーションデータセットです。

直接使用します:

https://hyper.ai/datasets/29168

7. 中国詩中国古典詩集の最も完全なデータベース

このデータセットは、現在最も完全な中国古典コレクションデータベースであり、55,000 の唐の詩、260,000 の歌の歌詞、21,000 の歌の歌詞、その他の古典コレクションが含まれています。詩人には、唐と宋の古代詩人が 14,000 人近く、宋の両王朝の古代詩人が 1.5,000 人近く含まれています。データはインターネットから取得されます。

直接使用します:

https://hyper.ai/datasets/29257

8. PD&CFT 中国語読解データセット

このデータセットは、人民日報と童話 (PD&CFT) のテキストコンテンツを含む初の中国語読解データセットです。

直接使用します:

https://hyper.ai/datasets/29260

今週更新されたその他のデータセットについては、次のサイトをご覧ください。:

https://hyper.ai/datasets

サイエンスAI 厳選された紙ケース

1.パーキンソン病の早期診断の精度は、深セン先進病院と中山第一病院が共同で GSP-GCNs モデルを提案し、90.2% まで向上しました。

中山大学第一付属病院や中国科学技術大学高等研究院などの研究チームは、イベントを使用する深層学習モデルであるグラフ信号処理-グラフ畳み込みネットワーク (GSP-GCN) を提案しました。パーキンソン病を診断するためのEEGデータを含む特定のタスクから得られた相関。関連論文は雑誌「Nature」に掲載されています。

レポート全体を表示します。

https://hyper.ai/news/29189

2. 科学技術省が行動を起こす！科学研究者向けの AIGC ユーザーマニュアルがここにあり、学術コミュニティは AI ガンマンに対する警戒を開始しています

科学技術省監督局は2023年12月21日、人工知能などの注目課題に対応するため、科学研究におけるAIなどの技術の適用を規制する「責任ある研究行動に関するガイドライン（2023年）」を公表した。そして社会的に懸念される重大な結果の発表。

レポート全体を表示します。

https://hyper.ai/news/29228

3. 中国科学院半導体研究所の論文が再びTNNLSのトップ号に掲載され、数式における新たな視点の探求に貢献

中国科学院半導体研究所の研究者は、式構造の解決を分類問題とみなして教師あり学習を通じて解決し、記号式を表現するために DeepSymNet と呼ばれる記号ネットワークを提案しました。教師あり学習に基づく現在一般的な SR アルゴリズムのいくつかと比較して、DeepSymNet は短いラベルを使用するため、予測のための検索スペースが削減され、アルゴリズムの堅牢性が向上します。関連論文は「IEEE」ジャーナルに掲載されています。

レポート全体を表示します。

https://hyper.ai/news/29243

人気のある百科事典の項目を厳選

1. 表現学習

2. 長期記憶と短期記憶長短期記憶

3. 最小二乗法

4. グリッドコンピューティンググリッドコンピューティング

5. 相互ランク融合 (RRF)

ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。

https://hyper.ai/wiki

上記は、今週編集者が選択したすべてのコンテンツです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、メッセージを残すか、投稿してお知らせください。

また来週お会いしましょう！

HyperAIについて Hyper.ai

HyperAI（hyper.ai）は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。

* 1,200 を超える公開データセットに対して国内の高速ダウンロードノードを提供

* 300 以上の古典的で人気のあるオンラインチュートリアルが含まれています

* 100 以上の AI4Science 論文ケースを解釈

* 500 以上の関連用語クエリをサポート

*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします

学習の旅を始めるには、公式 Web サイトにアクセスしてください。

https://hyper.ai/

HyperAI

Weekly Editor's Picks｜FewJoint ベンチマークデータセットがオンライン、科学技術省監督局が新たな AI 規制を発表

2年前

情報

サイエンスのためのAI

データセット

1 月 29 日から 2 月 2 日までの hyper.ai 公式 Web サイトの更新の概要:

※高品質な公開データセット：10件

※AI4S紙ケース：3枚

* 人気のある百科事典のエントリ: 10

公式ウェブサイトにアクセスしてください:ハイパーアイ

公開データセットの選択

1. FewJoint の小規模サンプルベンチマークデータセット

直接使用します:

https://hyper.ai/datasets/29239

2. 100 PoisonMpts 中国の大規模モデルガバナンスデータセット

直接使用します:

https://hyper.ai/datasets/29203

3. CLUE中国語理解評価ベンチマークデータセット

CLUE (中国語理解評価ベンチマーク) は、中国語文法理解タスクのトレーニング、検証、テストに使用されるデータセットです。

直接使用します:

https://hyper.ai/datasets/29094

4. ウィキペディアウィキペディアデータセット

直接使用します:

https://hyper.ai/datasets/28528

5. CCI 中国語インターネットコーパス

直接使用します:

https://hyper.ai/datasets/29186

6. PKU 簡体字中国語単語セグメンテーションデータセット

直接使用します:

https://hyper.ai/datasets/29168

7. 中国詩中国古典詩集の最も完全なデータベース

直接使用します:

https://hyper.ai/datasets/29257

8. PD&CFT 中国語読解データセット

このデータセットは、人民日報と童話 (PD&CFT) のテキストコンテンツを含む初の中国語読解データセットです。

直接使用します:

https://hyper.ai/datasets/29260

今週更新されたその他のデータセットについては、次のサイトをご覧ください。:

https://hyper.ai/datasets

サイエンスAI 厳選された紙ケース

1.パーキンソン病の早期診断の精度は、深セン先進病院と中山第一病院が共同で GSP-GCNs モデルを提案し、90.2% まで向上しました。

レポート全体を表示します。

https://hyper.ai/news/29189

レポート全体を表示します。

https://hyper.ai/news/29228

3. 中国科学院半導体研究所の論文が再びTNNLSのトップ号に掲載され、数式における新たな視点の探求に貢献

レポート全体を表示します。

https://hyper.ai/news/29243

人気のある百科事典の項目を厳選

1. 表現学習

2. 長期記憶と短期記憶長短期記憶

3. 最小二乗法

4. グリッドコンピューティンググリッドコンピューティング

5. 相互ランク融合 (RRF)

ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。

https://hyper.ai/wiki

また来週お会いしましょう！

HyperAIについて Hyper.ai

* 1,200 を超える公開データセットに対して国内の高速ダウンロードノードを提供

* 300 以上の古典的で人気のあるオンラインチュートリアルが含まれています

* 100 以上の AI4Science 論文ケースを解釈

* 500 以上の関連用語クエリをサポート

*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします

学習の旅を始めるには、公式 Web サイトにアクセスしてください。

https://hyper.ai/

Weekly Editor's Picks｜FewJoint ベンチマークデータセットがオンライン、科学技術省監督局が新たな AI 規制を発表

2年前

情報

サイエンスのためのAI

データセット

1 月 29 日から 2 月 2 日までの hyper.ai 公式 Web サイトの更新の概要:

※高品質な公開データセット：10件

※AI4S紙ケース：3枚

* 人気のある百科事典のエントリ: 10

公式ウェブサイトにアクセスしてください:ハイパーアイ

公開データセットの選択

1. FewJoint の小規模サンプルベンチマークデータセット

直接使用します:

https://hyper.ai/datasets/29239

2. 100 PoisonMpts 中国の大規模モデルガバナンスデータセット

直接使用します:

https://hyper.ai/datasets/29203

3. CLUE中国語理解評価ベンチマークデータセット

CLUE (中国語理解評価ベンチマーク) は、中国語文法理解タスクのトレーニング、検証、テストに使用されるデータセットです。

直接使用します:

https://hyper.ai/datasets/29094

4. ウィキペディアウィキペディアデータセット

直接使用します:

https://hyper.ai/datasets/28528

5. CCI 中国語インターネットコーパス

直接使用します:

https://hyper.ai/datasets/29186

6. PKU 簡体字中国語単語セグメンテーションデータセット

直接使用します:

https://hyper.ai/datasets/29168

7. 中国詩中国古典詩集の最も完全なデータベース

直接使用します:

https://hyper.ai/datasets/29257

8. PD&CFT 中国語読解データセット

このデータセットは、人民日報と童話 (PD&CFT) のテキストコンテンツを含む初の中国語読解データセットです。

直接使用します:

https://hyper.ai/datasets/29260

今週更新されたその他のデータセットについては、次のサイトをご覧ください。:

https://hyper.ai/datasets

サイエンスAI 厳選された紙ケース

1.パーキンソン病の早期診断の精度は、深セン先進病院と中山第一病院が共同で GSP-GCNs モデルを提案し、90.2% まで向上しました。

レポート全体を表示します。

https://hyper.ai/news/29189

レポート全体を表示します。

https://hyper.ai/news/29228

3. 中国科学院半導体研究所の論文が再びTNNLSのトップ号に掲載され、数式における新たな視点の探求に貢献

レポート全体を表示します。

https://hyper.ai/news/29243

人気のある百科事典の項目を厳選

1. 表現学習

2. 長期記憶と短期記憶長短期記憶

3. 最小二乗法

4. グリッドコンピューティンググリッドコンピューティング

5. 相互ランク融合 (RRF)

ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。

https://hyper.ai/wiki

また来週お会いしましょう！

HyperAIについて Hyper.ai

* 1,200 を超える公開データセットに対して国内の高速ダウンロードノードを提供

* 300 以上の古典的で人気のあるオンラインチュートリアルが含まれています

* 100 以上の AI4Science 論文ケースを解釈

* 500 以上の関連用語クエリをサポート

*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします

学習の旅を始めるには、公式 Web サイトにアクセスしてください。

https://hyper.ai/

Weekly Editor's Picks｜FewJoint ベンチマークデータセットがオンライン、科学技術省監督局が新たな AI 規制を発表

Weekly Editor's Picks｜FewJoint ベンチマークデータセットがオンライン、科学技術省監督局が新たな AI 規制を発表

関連ニュース

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

Weekly Editor's Picks｜FewJoint ベンチマークデータセットがオンライン、科学技術省監督局が新たな AI 規制を発表

関連ニュース

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

関連ニュース

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

関連ニュース

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

Command Palette

Weekly Editor's Picks｜FewJoint ベンチマーク データセットがオンライン、科学技術省監督局が新たな AI 規制を発表

Command Palette

Weekly Editor's Picks｜FewJoint ベンチマーク データセットがオンライン、科学技術省監督局が新たな AI 規制を発表

関連 ニュース

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

Command Palette

Weekly Editor's Picks｜FewJoint ベンチマーク データセットがオンライン、科学技術省監督局が新たな AI 規制を発表

関連 ニュース

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

関連 ニュース

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

関連 ニュース

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

Weekly Editor's Picks｜FewJoint ベンチマークデータセットがオンライン、科学技術省監督局が新たな AI 規制を発表

Weekly Editor's Picks｜FewJoint ベンチマークデータセットがオンライン、科学技術省監督局が新たな AI 規制を発表

関連ニュース

Weekly Editor's Picks｜FewJoint ベンチマークデータセットがオンライン、科学技術省監督局が新たな AI 規制を発表

関連ニュース

関連ニュース

関連ニュース