NeurIPS 2024 データセット概要|雲除去/化学分光/歌唱音声/自動運転/昆虫標本をカバー....

特色图像

NeurIPS は、Neural Information Processing Systems Conference の正式名称で、神経情報処理システムに関する年次学術会議です。この会議は 1987 年に生理研として始まりました。人工知能分野の急速な発展に伴い、その影響力は徐々に拡大し、より多くの研究者や企業に注目され、よく知られるようになりました。会議でカバーされる幅広い分野をより適切に反映するために、NIPS は 2017 年に正式に NeurIPS に改名されました。

現在、NeurIPS は人工知能の分野で世界で最も権威のある学術会議の 1 つとなり、世界中から学者、起業家、研究者が集まります。

NeurIPS は今年で 38 回目 (NeurIPS 2024) となり、学術的な成果はこれまでと同様に偉大です。今年は合計 15,671 件の有効な投稿が受理され、最終的に約 4,000 件の論文が受理されたと報告されています。

HyperAI Super Neural は、カンファレンスから受け取ったデータ セットから、すべての人向けに 9 つの高品質のオープンソース データ セットを編集しました。雲の除去、化学分光学、歌声オーディオ、自動運転、昆虫標本などの多くの側面をカバーしており、オンデマンドでダウンロードできます ~

クリックしてサミットの詳細をご覧ください:
https://go.hyper.ai/vWvAW

QRコードを読み取って「データセット」をメモし、ディスカッショングループに参加してください↓

NeurIPS 2024 データセットの概要

1AllClear パブリック クラウド削除データセット

発行機関:コーネル大学、コロンビア大学

推定サイズ:22.42GB

ダウンロードアドレス:https://go.hyper.ai/iRqtm

衛星画像内の雲は、下流のアプリケーションにとって重大な課題を引き起こしており、現在の雲除去研究が直面している大きな問題は、包括的なベンチマークと十分に大規模で多様なトレーニング データセットが不足していることです。 AllClear は現在最大のパブリック クラウド除去データセットであり、世界中に分散された 23,742 の関心領域 (ROI) を含み、多様な土地利用パターンをカバーし、合計 400 万の画像が含まれています。

2. ムハラフ手書きのアラビア語データセット

発行機関:ノースカロライナ州立大学、カスリクのホーリースピリット大学、レバノン歴史協会

推定サイズ:9.83GB

ダウンロードアドレス:https://go.hyper.ai/yztH6

Muharaf データセットは、手書きのアラビア語認識に焦点を当てた機械学習データセットで、アーカイブのアラビア語の専門家によって転写された歴史的な手書きのページの 1.6k 以上の画像が含まれています。各文書画像には、手書きテキスト認識 (HTR) 分野の技術進歩を目的として、そのテキスト行の空間ポリゴン座標と基本的なページ要素に関する情報が付属しています。

3化学マルチモードスペクトルデータセット

発行機関:IBM Research、チューリッヒ大学、EPFL、NCCR 触媒

推定サイズ:9.7GB

ダウンロードアドレス:https://go.hyper.ai/ZdXk8

このデータセットには、特許データの化学反応から抽出された 790,000 個の分子のシミュレートされた 1H-NMR、13C-NMR、HSQC-NMR、赤外および質量分析 (正イオンおよび負イオン モード) のスペクトル データが含まれています。このデータセットの中核となる価値は、複数のスペクトルモダリティからの情報を統合し、人間の専門家が分子構造を分析する方法をシミュレートできることにあります。これにより、構造分析が自動化され、合成から構造決定までの分子発見プロセスが簡素化されることが期待されます。

4GTSinger 歌唱音声データセット

発行機関:浙江大学

推定サイズ:28.94GB

ダウンロードアドレス:https://go.hyper.ai/7jdi2

このデータセットには、プロのレコーディング スタジオで録音された 20 人のプロの歌手によって歌われた 80.59 時間の歌声が含まれており、中国語、英語、日本語、韓国語などを含む 9 つの言語をカバーしており、研究者に音色と非常に豊富なリソース ライブラリを提供しています。スタイル。

5DrivingDojo 自動運転データセット

発行機関:中国科学院、美団、香港イノベーション研究所人工知能ロボットセンター、中国科学院

ダウンロードアドレス:https://go.hyper.ai/W3eDT

データセットには、北京、深セン、徐州などの都市をカバーする約 18,000 のビデオ クリップが含まれており、さまざまな気象条件や日光条件で記録されています。加速、急ブレーキ、駐車、発進などの縦方向の操作だけでなく、Uターン、追い越し、車線変更などの横方向の操作も含まれます。さらに、データセットは、複雑な運転環境におけるワールドモデルの予測および制御能力を向上させることを目的として、マルチエージェントのインタラクション軌跡の多数のビデオを含むように特別に設計されています。

6多峰性の昆虫の生物多様性データセット

発行機関:生物多様性ゲノミクスセンター、グエルフ大学、ウォータールー大学など

推定サイズ:37.71GB

ダウンロードアドレス:https://go.hyper.ai/Ljjwp

BIOSCAN-5M データセットには、500 万を超える昆虫標本に関する詳細情報が含まれており、分類学的ラベル、生のヌクレオチド バーコード シーケンス、割り当てられたバーコード インデックス番号と地理情報、標本サイズなどのマルチモーダル情報だけでなく、既存の画像ベースの生物学的データセットを大幅に拡張します。地球規模の昆虫の生物多様性を理解して監視することを目的としており、これも取り上げられています。

7OpenSatMap 高解像度衛星データセット

発行機関:中国科学院、香港情報システム研究所の人工知能およびロボット研究センター、中国科学院、Tencent Maps、北京郵電大学

推定サイズ:57.7GB

ダウンロードアドレス:https://go.hyper.ai/g54aa

このデータセットは、大規模な地図構築用に設計された高解像度の衛星データセットです。これには、きめ細かいインスタンス レベルの注釈と高解像度画像が特徴で、中国の複数の都市の画像だけでなく、世界 18 か国の 50 都市以上の画像を含む 3,787 枚の高解像度衛星画像が含まれています。

8自然種の音声データセット

発行機関:マサチューセッツ大学アマースト校、iNaturalist

推定サイズ:131.26GB

ダウンロードアドレス:https://go.hyper.ai/lyTcc

このデータセットは、世界中の 27,000 人以上の記録保持者によって提供された 5,500 種以上の生物の音をキャプチャした 230,000 個の音声ファイルを収集しています。このデータセットには、鳥、哺乳類、昆虫、爬虫類、両生類の音が含まれており、iNaturalist に送信された観察から得られた音声と種のラベルが付いています。

9MINT-1T テキストと画像のペアのマルチモーダル データセット

発行機関:ワシントン大学、スタンフォード大学、セールスフォース・リサーチなど

ダウンロードアドレス:https://go.hyper.ai/kROfu

このデータセットには 1 兆のテキスト トークンと 34 億の画像が含まれており、以前の最大のオープンソース データセットよりも 10 倍大きくなります。 HTML 文書だけでなく、PDF 文書や ArXiv 論文も含まれており、その多様性により科学文書の網羅性が大幅に向上します。 

10AudioSetCaps オーディオ字幕データ セット

発行機関:西北理工大学、西安連峰音響技術有限公司、南洋理工大学、音響研究所、中国科学院など

ダウンロードアドレス:https://go.hyper.ai/rTKdU

AudioSetCaps はオーディオ字幕データ セットであり、データは AudioSet、YouTube-8M、および VGGSound から取得され、6,117,099 個の 10 秒オーディオ ファイルが含まれています。各オーディオ ファイルには、最終的なタイトルを生成するためのメタデータとして、説明的なタイトルと 3 つの Q&A ペアが付いています (合計 18,414,789 ペアの Q&A データ)。 

上記は HyperAI によってコンパイルされた NeurIPS 2024 データ セットです。hyper.ai の公式 Web サイトに含めたいリソースがある場合は、メッセージを残すか、私たちに知らせてください。

HyperAIについて Hyper.ai

HyperAI(hyper.ai)は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。

* 1,300 を超える公開データセットに対して国内の高速ダウンロード ノードを提供

* 400 以上の古典的で人気のあるオンライン チュートリアルが含まれています

* 200 以上の AI4Science 論文ケースを解釈

* 500 以上の関連用語クエリをサポート

*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします

学習の旅を始めるには、公式 Web サイトにアクセスしてください。

https://hyper.ai