Weekly Editor's Picks|FewJoint ベンチマーク データセットがオンライン、科学技術省監督局が新たな AI 規制を発表

フューショット学習とは、人間のような非常に少数のサンプルを通じて新しいタスクを学習し習得する能力を指します。この分野は機械学習コミュニティの注目の分野となっており、機械知能を人間の知能に近づける重要な方向性の 1 つであると考えられています。ハルビン工業大学は、NLP 小規模サンプル評価の公開評価ベンチマークを提供する FewJoint ベンチマーク データ セットを開始しました。このデータ セットは hyper.ai で公開されています。Hyper.ai には、ダウンロードできる中国語の大規模モデル トレーニング用の NLP データ セットも多数あります。見てみましょう。
1 月 29 日から 2 月 2 日までの hyper.ai 公式 Web サイトの更新の概要:
※高品質な公開データセット:10件
※AI4S紙ケース:3枚
* 人気のある百科事典のエントリ: 10
公式ウェブサイトにアクセスしてください:ハイパーアイ
公開データセットの選択
1. FewJoint の小規模サンプル ベンチマーク データ セット
FewJoint ベンチマーク データ セットは、実際のユーザー コーパスと、iFlytek AIUI オープン プラットフォーム上で専門家が構築したコーパスから取得されます (比率は約 3:7)。これには、59 の実際のフィールドが含まれており、現在最も多くのフィールドを含むダイアログ データ セットの 1 つです。 。
直接使用します:
https://hyper.ai/datasets/29239
2. 100 PoisonMpts 中国の大規模モデル ガバナンス データ セット
100 PoisonMpts は、業界初の大規模言語モデル ガバナンス オープンソース中国語データ セットで、数十人の著名な専門家や学者が「AI 用の 100 本の毒」アノテーション エンジニアの最初のグループを形成しています。アノテーターはそれぞれ、偏見や差別的な回答を誘発する100のトリッキーな質問をし、大規模モデルの回答にアノテーションを付けることで、AIによる「中毒」と「解毒」の攻撃と防御を完成させた。
直接使用します:
https://hyper.ai/datasets/29203
3. CLUE中国語理解評価ベンチマークデータセット
CLUE (中国語理解評価ベンチマーク) は、中国語文法理解タスクのトレーニング、検証、テストに使用されるデータ セットです。
直接使用します:
https://hyper.ai/datasets/29094
4. ウィキペディア ウィキペディア データセット
データセットは Wikipedia ダンプから構築されており、言語ごとに 1 つのサブセットがあり、各サブセットは列分割によって結合されています。各例には、完全な Wikipedia 記事のコンテンツが含まれており、マークアップや不要な部分 (「参考文献」など) が削除されています。
直接使用します:
https://hyper.ai/datasets/28528
5. CCI 中国語インターネット コーパス
Chinese Corpora Internet (CCI) は、中国本土のインターネット Web サイトからの高品質で信頼できるソースで構成されています。 CCI では、厳格なデータ クリーニングと重複排除が行われ、コンテンツ品質の観点から対象を絞った検出とフィルタリングが実行されます。
直接使用します:
https://hyper.ai/datasets/29186
6. PKU 簡体字中国語単語セグメンテーション データセット
SIGHAN 2005 データセット国際中国語自動単語分割評価 (SIGHAN 評価と呼ばれる) は、複数の機関からの単語分割データ セットを統合しています。このデータセットは、Microsoft Research China、北京大学、香港城市大学、台湾の中央研究院によって共同リリースされ、中国語単語セグメンテーション モデルのトレーニングと評価に使用されます。このうち、PKU は簡体字中国語の単語セグメンテーション データ セットです。
直接使用します:
https://hyper.ai/datasets/29168
7. 中国詩 中国古典詩集の最も完全なデータベース
このデータ セットは、現在最も完全な中国古典コレクション データベースであり、55,000 の唐の詩、260,000 の歌の歌詞、21,000 の歌の歌詞、その他の古典コレクションが含まれています。詩人には、唐と宋の古代詩人が 14,000 人近く、宋の両王朝の古代詩人が 1.5,000 人近く含まれています。データはインターネットから取得されます。
直接使用します:
https://hyper.ai/datasets/29257
8. PD&CFT 中国語読解データセット
このデータ セットは、人民日報と童話 (PD&CFT) のテキスト コンテンツを含む初の中国語読解データ セットです。
直接使用します:
https://hyper.ai/datasets/29260
今週更新されたその他のデータセットについては、次のサイトをご覧ください。:
サイエンスAI 厳選された紙ケース
1.パーキンソン病の早期診断の精度は、深セン先進病院と中山第一病院が共同で GSP-GCNs モデルを提案し、90.2% まで向上しました。
中山大学第一付属病院や中国科学技術大学高等研究院などの研究チームは、イベントを使用する深層学習モデルであるグラフ信号処理-グラフ畳み込みネットワーク (GSP-GCN) を提案しました。パーキンソン病を診断するためのEEGデータを含む特定のタスクから得られた相関。関連論文は雑誌「Nature」に掲載されています。
レポート全体を表示します。
2. 科学技術省が行動を起こす!科学研究者向けの AIGC ユーザー マニュアルがここにあり、学術コミュニティは AI ガンマンに対する警戒を開始しています
科学技術省監督局は2023年12月21日、人工知能などの注目課題に対応するため、科学研究におけるAIなどの技術の適用を規制する「責任ある研究行動に関するガイドライン(2023年)」を公表した。そして社会的に懸念される重大な結果の発表。
レポート全体を表示します。
3. 中国科学院半導体研究所の論文が再びTNNLSのトップ号に掲載され、数式における新たな視点の探求に貢献
中国科学院半導体研究所の研究者は、式構造の解決を分類問題とみなして教師あり学習を通じて解決し、記号式を表現するために DeepSymNet と呼ばれる記号ネットワークを提案しました。教師あり学習に基づく現在一般的な SR アルゴリズムのいくつかと比較して、DeepSymNet は短いラベルを使用するため、予測のための検索スペースが削減され、アルゴリズムの堅牢性が向上します。関連論文は「IEEE」ジャーナルに掲載されています。
レポート全体を表示します。
人気のある百科事典の項目を厳選
1. 表現学習
2. 長期記憶と短期記憶 長短期記憶
3. 最小二乗法
4. グリッドコンピューティング グリッドコンピューティング
5. 相互ランク融合 (RRF)
ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。
上記は、今週編集者が選択したすべてのコンテンツです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、メッセージを残すか、投稿してお知らせください。
また来週お会いしましょう!
HyperAIについて Hyper.ai
HyperAI(hyper.ai)は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。
* 1,200 を超える公開データセットに対して国内の高速ダウンロード ノードを提供
* 300 以上の古典的で人気のあるオンライン チュートリアルが含まれています
* 100 以上の AI4Science 論文ケースを解釈
* 500 以上の関連用語クエリをサポート
*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします
学習の旅を始めるには、公式 Web サイトにアクセスしてください。