Weekly Editor's Selection|COIG-CQIA データセットはオンライン、ComfyUI Vincent 図ワークフローはオンラインで実行

特色图像

中国の高品質データセットのギャップを埋めるために、中国科学院、Zero One Thing、北京大学を含む 10 機関が共同で COIG-CQIA データセットを開発しました。驚くべきことに、このデータセット内の「遅れた Tieba」のデータ品質は、実際、Zhihu、Douban、Sifou などの知識コミュニティを大幅に上回っています。 COIG-CQIA データセットは現在、hyper.ai 公式 Web サイトでオンラインになっています。ぜひご覧ください。

4 月 8 日から 4 月 12 日までの hyper.ai 公式 Web サイトの更新の概要:

* 高品質の公開データセット: 10

* 高品質なチュートリアルのセレクション: 2

* コミュニティ記事の選択: 5 記事

* 人気のある百科事典のエントリ: 5

公式ウェブサイトにアクセスしてください:ハイパーアイ

公開データセットの選択

1. COIG-CQIA 高品質中国語命令微調整データセット

COIG-CQIA は、中国のオープン命令ジェネラリスト – 必要なのは品質だけであり、中国の NLP コミュニティに高品質の命令微調整データを提供することを目的とした、オープンソースの高品質命令微調整データ セットです。人間のインタラクション行動と一致しています。

直接使用します:https://go.hyper.ai/Pg37L

2. EgoExoLearn クロスパースペクティブスキル学習データセット

EgoExoLearn データセットには、日常生活の場面や専門的な研究室から収集された 120 時間のビデオ データが含まれています。データセット内の動画には、デモ動画だけでなく、出演者がデモを鑑賞した後に自身の一人称視点(自己中心的)で撮影した動画も含まれます。

直接使用します:https://go.hyper.ai/cYsPM

3. S2S-SIM船舶協調センシングシミュレーションデータセット

S2S-Sim データセットは、上海大学によって開発された最初の船舶協調センシング シミュレーション データセットです。データセットには合計 7,000 フレームのデータが含まれており、船舶境界ボックスの 96,881 個の正確な注釈が含まれています。その目的は、船舶間の効果的な協調センシングをサポートすることであり、特に自動運転システムと船舶協調センシングの分野の研究に重点を置いています。 

直接使用: https://go.hyper.ai/AVWp2

4. Common Corpus-zh 中国語パブリックドメインデータセット

Common Corpus は、Pleias、HuggingFace、およびその他の機関によって共同作成され、現在最大のパブリック ドメイン データ セットであり、大規模言語モデル (LLM) のトレーニングに特に使用されています。このデータ セットには、英語、フランス語、中国語、スペイン語、ドイツ語、イタリア語など、世界中のさまざまな文化遺産プロジェクトから 5,000 億語の単語が集められており、これまでで最も包括的な言語リソース ライブラリとなっています。

直接使用: https://go.hyper.ai/hvuV5

5. TriviaQA 読解と質問回答のための大規模なデータセット

TriviaQA は、650,000 を超える質問と回答の証拠トリプルを含む読解データセットです。 TriviaQA には、Wikipedia と Web からの 662,000 のドキュメントからの 95,000 の質問と回答のペアが含まれています。

直接使用: https://go.hyper.ai/aant8

6. HalluQA 中国大型モデル幻覚評価データセット

HalluQA データセットには、複数の分野にまたがり、中国の歴史、文化、習慣、社会現象を含む 450 の敵対的な質問が含まれています。

直接使用: https://go.hyper.ai/pWyqe

7. AIモデルによる洪水解析・予測データセット

このデータセットは、論文「計量されていない流域における極端な洪水の世界予測」の研究データであり、主な内容は、AI モデルと対応する GloFAS によって生成された洪水再解析 (1984 ~ 2021 年) および再予測 (2014 ~ 2021 年) データです。ベンチマークデータ。

直接使用: https://go.hyper.ai/bpsG3

8. MASSTAR マルチモーダル大規模シーンデータセット

MASSTAR は、中山大学、香港科技大学、その他の機関が共同で提案したマルチモーダルな大規模シーン データ セットです。これには、1,000 を超えるシーンレベルの 3D メッシュ モデルが含まれており、その一部は、現実世界。

直接使用します:https://go.hyper.ai/eLZUy

9. VideoBadminton バドミントンビデオアクション認識データセット

VideoBadminton は、オーバーン大学と国立中央大学によって作成されたバドミントンの高品質ビデオ データセットです。このデータセットには、国立中央大学の男女アスリート 19 名のバドミントン動画データが含まれており、バドミントンの 18 種類の動き、合計 7,822 個の動画クリップが含まれており、総再生時間は 145 分です。

直接使用します:https://go.hyper.ai/w5ToD

10. FineFake のきめ細かいマルチドメインのフェイクニュース検出データセット

FineFake は、北航大学と北京郵電大学が共同で作成した、きめ細かいマルチドメインのフェイク ニュース検出用のデータセットです。データ セットには合計 16,909 のデータ サンプルがあり、6 つのセマンティック トピックと 8 つの異なるプラットフォームをカバーしています。各ニュース サンプルには、テキスト、画像、および潜在的に社会的なコンテキスト情報など、複数の形式のコンテンツが含まれています。

直接使用します:https://go.hyper.ai/CNWIn

その他の公開データセットについては、次のサイトをご覧ください。:

https://hyper.ai/datasets

選択された公開チュートリアル

1. コストは最大 16 分の 1 に削減できます。ComfyUI Stable Cascade チュートリアルはオンラインになっており、ワンクリックで導入できます。

このチュートリアルは、AI ペイントに ComfyUI Stable Casecade ワークフローを使用する方法に関するチュートリアルであり、Stable Cascade のデフォルトの Vincent ダイアグラム ワークフローがセットアップされており、使用プロセスを簡素化するためにノードを直接接続できます。図は 2 秒で作成できます。

オンラインで実行:https://go.hyper.ai/lJGLF

2. 作物病害画像分類チュートリアル

このチュートリアルでは、作物の病気の画像分類に PyTorch を使用します。これは、植物の病気を検出するための機械学習モデルをトレーニングしたり、自動植物診断アルゴリズム学習を開発したりするのに役立ちます。

オンラインで実行:https://go.hyper.ai/

注目のコミュニティ記事

1. 大規模モデルリソースの超包括的コレクション|30 の高品質 NLP データセットとモデル、8 つのデモがワンクリックで使用できるので、収集することをお勧めします。

この記事では、15 個のデータ セット、15 個のモデル、8 個の大規模モデルのデモ (ダウンロードおよび使用リンクを含む) を含む大規模モデル関連リソースを要約します。

記事全文を表示:https://go.hyper.ai/sYC6h

2. 630,000 の三次元空間構成を効果的に特定し、清華大学が率先して MOF 吸着容量を予測する Uni-MOF モデルをリリース

清華大学化学工学部の Lu Diannan 教授のチームは、3 次元 MOF 材料の吸着挙動を予測するための機械学習モデル Uni-MOF の提案を主導しました。このモデルは、3 次元 MOF 材料を識別して復元できるだけではありません。事前トレーニングを通じてナノ多孔質材料の寸法構造を理解するだけでなく、温度、圧力、さまざまなガス分子なども考慮するため、科学研究と実用化の両方に適しています。関連する結果は雑誌「Nature」に掲載されました。

レポート全体を表示します。https://go.hyper.ai/VWFVo

3. 卵巣がんは、血液検査、尿検査、その他の指標を使用して特定できます。中山大学のLiu Jihong氏のチームが主導し、4つの主要医学部が共同でAI融合モデルを構築

中山大学、南方医科大学、華中科技大学、浙江大学は共同で、定期的な臨床検査データと年齢を入力することで卵巣がんのリスクを計算できる卵巣がん診断人工知能融合モデルMCFを構築した。モデルの精度は、CA125 や HE4 などの従来のバイオマーカーよりも優れています。関連する結果は「The Lancet Digital Health」に掲載されています。

レポート全体を表示します。https://go.hyper.ai/prEbC

4. Insilico への洞察: AI 製薬スター企業の飛躍、困難、失敗

インシリコンは4億750万ドルを調達したが、今年1月の香港株式市場への上場に失敗し、3月27日に2度目の上場申請を行った。中国と米国の技術競争の下、「米国の新興企業、中国の共同CEO、米国の株主、中国の本社…」という状況をどう打開し、うまく勝利できるかというプレッシャーが倍増している。初のAI医薬品株」はまだ不明。本稿では、AI製薬のスター企業であるこの企業について、技術開発、チーム構成、事業展開などの側面から徹底紹介する。

レポート全体を表示します。https://go.hyper.ai/llREq

人気のある百科事典の項目を厳選

1. ラングチェーン

2. 混合エキスパートモデル MoE

3. グループクエリアテンションGQA

4. 相互ランキング融合 RRF

5. 再現率

ここには何百もの AI 関連の用語がまとめられており、ここで「人工知能」を理解することができます。

https://hyper.ai/wiki

ステーションBのライブブロードキャストプレビュー

日付時間コンテンツ
4月15日月曜日10:00長年にわたる Google IO カンファレンス
4月16日火曜日10:00MITディープラーニングコース2020
4月17日水曜日10:00MITディープラーニングコース2021
4月18日(木)10:00Python API開発の初心者向け総合コース
4月19日金曜日10:00初心者向けのフラッターコース
4月20日土曜日10:00ハーバード大学 CS50Python 人工知能コース
4月21日日曜日10:00スタンフォードHAIセミナー

スーパー ニューラル TV ステーションは、7 時間 24 日中断のない生放送を放送しており、ワンクリックで AI 分野の「電子マスタード」を収穫できます。

http://live.bilibili.com/26483094

上記は、今週編集者が選択したすべてのコンテンツです。hyper.ai 公式 Web サイトに掲載したいリソースがある場合は、お気軽にメッセージを残すか、投稿してお知らせください。

また来週お会いしましょう!

HyperAIについて Hyper.ai

HyperAI(hyper.ai)は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。

* 1,200 を超える公開データセットに対して国内の高速ダウンロード ノードを提供

* 300 以上の古典的で人気のあるオンライン チュートリアルが含まれています

* 100 以上の AI4Science 論文ケースを解釈

* 500 以上の関連用語クエリをサポート

*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします

学習の旅を始めるには、公式 Web サイトにアクセスしてください。

https://hyper.ai