Weekly Editor's Selection | Microsoft のオープンソース Orca-Math 高品質数学データ セット、清華大学の研究チームが条件付きノイズ除去拡散モデル SPDiff をリリース

特色图像

Orca-Math は、Microsoft Research によってリリースされた数学的推論モデルです。このモデルは、特定の領域において、より大きなモデルのパフォーマンスに匹敵する、またはそれを超える可能性がある、より小さな特化されたモデルの価値を示しています。Microsoft は最近、Orca-Math のトレーニングに使用される Orca-Math-200K 数学的文章題データ セットをオープンソース化し、hyper.ai 公式 Web サイトからダウンロードできるようになりました。

3 月 11 日から 3 月 15 日までの hyper.ai 公式 Web サイトの更新の概要:

* 高品質の公開データセット: 10

* 高品質の公開チュートリアル: 2

* コミュニティ記事の選択: 3 記事

* 人気のある百科事典のエントリ: 10

公式ウェブサイトにアクセスしてください:ハイパーアイ

公開データセットの選択

1. Orca-Math-200K Microsoft 数学文章題データセット

Orca-Math-200K は、Microsoft によって作成された高品質の合成データセットで、約 200,000 の小学校の数学の質問が含まれています。このデータセット内のすべての答えは、Azure GPT4-Turbo を使用して生成されています。

直接使用します:

https://my5353.com/30060

2. MULTI-Benchmark: テキストと画像によるマルチモーダル理解度ランキング

このデータセットは、上海交通大学がリリースしたマルチモーダルベンチマークテスト MULTI で、複雑な表や画像を理解し、長いテキスト推論を実行するマルチモーダル大規模モデルの能力を評価するように設計されています。このテストでは、さまざまな入力が行われ、実際の試験スタイルを反映した正確な回答または自由回答が求められます。 MULTI には、数式の導出から画像分析、クロスモーダル推論まで、さまざまな範囲のタスクをカバーする 18,000 を超える質問が含まれています。

直接使用します:

https://my5353.com/30062

3. IEPile 大規模情報抽出コーパス 

IEPile は、浙江大学によって開発された大規模で高品質のバイリンガル (中国語と英語) の情報抽出 (IE) 命令微調整データ セットであり、固有表現認識 (NER)、関係抽出 (RE) の 3 つの中核領域をカバーしています。およびイベント抽出 (EE)。データセットには、一般用途、医療、金融などの複数の分野をカバーする約 200 万の指示サンプル、合計約 3 億 2,000 万のトークンが含まれています。

直接使用します:

https://my5353.com/30064

4. FFHQ-UV-3D 顔再構築用の固有の顔属性データセット

FFHQ-UV-Intrinsic は、FFHQ-UV データセットに基づいて Ubisoft LaForge によって構築された固有の顔属性データセットです。これには、拡散反射、鏡面反射、アンビエント オクルージョン、半透明マップなど、10,000 人の被写体の顔の固有属性が含まれています。これは、高解像度の固有プロパティを大規模に提供する最初の公開顔データセットです。

直接使用します:

https://my5353.com/30113

5. GITQA マルチモーダル グラフ推論の質問と回答のデータ セット

GITQA は、香港科技大学と南方科技大学によって構築された視覚的なグラフを含む初の推論質問と回答のデータセットです。データセットには 423K を超える質問と回答のインスタンスが含まれており、各インスタンスには、対応するグラフ構造、テキスト、視覚情報と、対応する質問と回答のペアが含まれています。

直接使用します:

https://my5353.com/30116

6. SMolInstruct 化学指示微調整データセット

SMolInstruct は、オハイオ州立大学によって提案された大規模で包括的で高品質な化学指示微調整データ セットです。このデータ セットには、160 万の固有の分子をカバーする 14 の異なる化学タスク、合計 300 万以上のサンプルが含まれています。

直接使用します:

https://my5353.com/30133

7. MusicPile の大規模音楽データセット

MusicPile は、マルチモーダル アート プロジェクション 研究コミュニティ、Skywork AI、香港科技大学が共同で立ち上げた大規模な音楽言語の事前トレーニング データセットです。データセットには 517 万サンプルと約 41 億 6000 万トークンが含まれており、ソースには音楽書籍、YouTube 音楽字幕、ABC 表記作品などが含まれます。 MusicPile は、幅広い音楽知識、知識の質問と回答、典型的な音楽理論の内容をカバーしており、大規模モデルの音楽理解と作成能力を向上させる上で重要な役割を果たします。

直接使用します:

https://my5353.com/30136

8. seq-monkey シーケンス モンキー オープンソース データ セット 1.0

Sequence Monkey は、Mobvoi によって提供される非常に大規模な言語モデルです。Sequence Monkey データセットは、Sequence Monkey モデルをトレーニングするために使用されるデータセットです。現在、データセットの一部が抽出され、公開されています。関連する領域は次のとおりです。中国語一般テキストコーパス、古詩・現代語訳コーパス、テキスト生成コーパス。

直接使用します:

https://my5353.com/30139

9.Douban映画ショートレビューデータセットV2

このデータ セットには、Douban 映画 Web サイト上の 28 の映画に対する 200 万を超える短いコメントが含まれています。テキスト分類、テキスト クラスタリング、センチメント分析、セマンティック ネットワーク構築、および Web マイニングや NLP に関連するその他の分野に使用できます。

直接使用します:

https://my5353.com/30011

10. AdaDR—論文「Adaptive GCN Methodに基づくDrug Repositioning Based on Adaptive GCN Method」のデータセット

このデータセットは、論文「Adaptive GCN Methodに基づいたDrug Repositioning」で使用されたデータセットです。提案されたモデルのパフォーマンスを包括的に評価するために、研究チームは 4 つのベンチマーク データセットを使用しました: Gdataset (Gottlieb et al. 2011)、Cdataset (Luo et al. 2016)、Ldataset (Yu et al. 2021)、および LRSSL (Liang et al. 2017)、薬物再配置タスクに適用できます。

直接使用します:

https://my5353.com/30057

今週更新されたその他のデータセットについては、次のサイトをご覧ください。:

https://hyper.ai/datasets

選択された公開チュートリアル

1. 花の分類に転移学習を使用する

このチュートリアルでは、転移学習を使用して花の画像のデータセットに対して画像分類を実行する方法を示します。このチュートリアルでは、事前トレーニング済みの畳み込みニューラル ネットワーク (CNN) を特徴抽出器として使用し、その上にカスタム分類器を構築して花の種類を予測します。

オンラインランニングチュートリアル:

https://my5353.com/n30069

2. 効率的な導入のためのビジョン トランスフォーマー (Vit) の定量化: 戦略とベスト プラクティス

先進的なコンピュータ ビジョン システムに対する需要が業界全体で急増し続ける中、ビジョン トランスフォーマーの導入が研究者や実務者にとって注目を集めています。ただし、これらのモデルの可能性を最大限に発揮するには、そのアーキテクチャを深く理解する必要があります。さらに、これらのモデルを効果的に導入するための最適化戦略を開発することも同様に重要です。

このチュートリアルでは、Vision Transformer のアーキテクチャ、主要なコンポーネント、およびそれらを独自のものにする基本について包括的に説明します。チュートリアルの最後では、モデルをよりコンパクトにして展開を容易にするためのいくつかの最適化戦略について、コードのデモンストレーションを通じて説明します。

オンラインランニングチュートリアル:

https://my5353.com/n30119

注目のコミュニティ記事

1. 最適なパフォーマンスを達成するために必要なトレーニング サンプルは 5% のみです。清華大学の研究チームは、長距離の人流移動シミュレーションを実現するための条件付きノイズ除去拡散モデル SPDiff をリリースしました。

清華大学の研究チームは、新しい条件付きノイズ除去拡散モデル SPDiff を提案しました。これは、インタラクション ダイナミクスを効果的に利用して、社会的力によって導かれる拡散プロセスを通じて群衆の行動をシミュレートできます。関連論文はAAAI 2024に掲載されています。

レポート全体を表示します。

https://my5353.com/n30069

2. 北京師範大学の研究チームは、今後 70 年間の中国の風力エネルギー利用の可能性を予測する ECA-Net モデルを確立しました。

最近、北京師範大学環境学部の研究チームが、我が国の風力エネルギーの潜在力が地球温暖化の状況でどのように変化するかを評価した論文を発表した。この研究では、モデル間の不確実性の信頼できる評価を提供するために、22 の CMIP6 地球規模気候モデルを出力として使用しました。この結果は、我が国の全体的な風力エネルギー密度が今世紀に若干の減少傾向を示すことを示しています。関連論文は「ACS Publications」に掲載されています。

レポート全体を表示します。

https://my5353.com/n30119

3NVIDIA 2024 GTC カウントダウン、Jen-Hsun Huang は中国市場に新たな施策をもたらすでしょうか?

2024 GTC AI カンファレンスは、3 月 18 日から 21 日まで開催される予定で、北京時間の 3 月 19 日午前 4 時から 6 時まで、黄仁訓氏が「AI の変革の瞬間を目撃する」というテーマで毎年恒例の講演を行います。 」 Lao Huang氏の最近のスピーチインタビューと業界の動向に基づいて、HyperAIは彼のスピーチのテーマを大胆に予測しました。

レポート全体を表示します。

https://my5353.com/n30151

百科事典選択されたエントリ

1. 平均精度 (mAP)

2. インスタンスのセグメント化

3. ユニオン上の交差 (IoU)

4. 多項式補間多項式補間

5. 相互ランク融合 (RRF)

ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。

https://hyper.ai/wiki

ステーションBのライブブロードキャストプレビュー

日付時間コンテンツ
3月18日
月曜日
10:0017:00MIT ディープ ラーニング コース 2020MIT ディープ ラーニング コース 2021
3月19日火曜日10:00Python API 開発 - 初心者向け総合コース
3月20日水曜日10:0014:00SQL チュートリアル — 初心者コース 生成 AI 完全コース
3月21日(木)21:00初心者向けのフラッターコース
3月22日金曜日10:00初心者向けのフラッターコース
3月23日土曜日10:00ハーバード CS50 — Python 人工知能コース
3月24日(日)10:00ディープラーニングのための PyTorch を 1 日で学ぶ

Super Neural TV は 7 時間 24 時間中断のないライブ放送を放送し、AI 業界の洞察を出力し続けます。一緒に学びましょう。

http://live.bilibili.com/26483094

上記は、今週編集者が選択したすべてのコンテンツです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、お気軽にメッセージを残すか、投稿してお知らせください。

また来週お会いしましょう!

HyperAIについて Hyper.ai

HyperAI(hyper.ai)は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。

* 1,200 を超える公開データセットに対して国内の高速ダウンロード ノードを提供

* 300 以上の古典的で人気のあるオンライン チュートリアルが含まれています

* 100 以上の AI4Science 論文ケースを解釈

* 500 以上の関連用語クエリをサポート

*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします

学習の旅を始めるには、公式 Web サイトにアクセスしてください。

https://hyper.ai/