30,000 人以上のユーザーによって投票され、収集が推奨された 6 つの古典的な機械学習データセット

内容概要: この号では、画像認識、機械翻訳、リモートセンシング画像などの分野をカバーする、Super Neural によって広くダウンロードされている 6 つのデータセットをまとめています。これらのデータセットは高品質でデータ量が多いため、収集して保存する価値があることが証明されています。キーワード: データセット、機械翻訳、マシンビジョン

データセットは機械学習モデルトレーニングの基礎です。高品質の公開データセットは、モデルトレーニングの有効性と研究結果の信頼性にとって非常に重要です。

HyperAI は、その立ち上げ以来、データサイエンスの専門家に多数の高品質の公開データセットを提供してきました。この号のコンテンツ共有のために、6 つの人気のあるデータセットを選別しました。累計ダウンロード数は32,569回に達した。これらのデータセットが大多数の開発者にさらに役立つことを願っています~

注: この記事で取り上げたデータセットはすべて Web サイトからのものです。

データセット

No. 6: Tanks Temple 3D 再構築データセット

発行機関：インテル研究所

含まれる数量:21種類のオブジェクトのHDビデオ

データ型:ビデオ

推定サイズ:52.53GB

発売時期：2017年

ダウンロードアドレス:hyper.ai/datasets/5148

Tanks Temple 画像データセットは、研究者が画像を収集できる高解像度ビデオを提供します。画像をもとに三次元再構成を行います。このデータセットにはトレーニングデータとテストデータの 2 つのカテゴリが含まれており、テストデータは中級グループと上級グループに分類されます。

第5位：DOTA航空画像データセット

発行機関：武漢大学

含まれる数量:2,806 枚の航空写真

データ型:画像

推定サイズ:35.38GB

発売時期：2017年

ダウンロードアドレス:hyper.ai/datasets/4920

DOTA は、A Large-scale Dataset for Object DeTection in Aerial Images の略で、2,806 枚の航空写真を含む画像データセットです。航空画像内の物体検出、画像内の物体の発見と評価に使用されます。

これらの画像ソースには、さまざまなセンサーやプラットフォームが含まれます。各画像のピクセルサイズは 800*800 から 4000*4000 の範囲で、さまざまなスケール、方向、形状のオブジェクトが含まれています。

過去の更新情報については、以下をご覧ください。

DOTA データセット: 2,806 個のリモートセンシング画像、約 190,000 個の注釈付きインスタンス

4位：VGG-Face2 顔認識データセット

発行機関：オックスフォード大学

含まれる数量:331万枚の画像

データ型:画像

推定サイズ:37.49GB

発売時期：2015年

ダウンロードアドレス:hyper.ai/datasets/5711

VGG-Face2 は、合計 9131 人の顔データを含む顔画像データセットです。画像はすべて Google の画像検索から取得したものです。データセット内の人々は、姿勢、年齢、人種、職業が大きく異なります。このデータセットは、2015 年にオックスフォード大学工学部の Visual Geometry Group によってリリースされました。関連論文には「Deep Face Recognition」などがあります。

その3：UCAS-AODリモートセンシング画像データセット

発行機関：中国科学院大学

含まれる数量:910枚の画像

データ型:画像

推定サイズ:3.24GB

発売時期：2014年

ダウンロードアドレス:hyper.ai/datasets/5419

UCAS-AOD はリモートセンシング画像データセットです。航空機や車両の検査に。このデータセットは、2014 年に国立科学技術大学によって初めて公開され、2015 年に補足されました。関連論文には、「深層畳み込みニューラルネットワークを使用した航空画像における方向性ロバストオブジェクト検出」などがあります。

No. 2: OpenMantra 漫画機械翻訳データセット

発行機関：東京大学

含まれる数量:214ページのコミック

データ型:JSON ファイル、画像

推定サイズ:32.46MB

発売時期：2020年

ダウンロードアドレス:hyper.ai/datasets/14137

OpenMantra は、5 つの異なるスタイル (ファンタジー、ロマンス、バトル、ミステリー、日常生活) の漫画を含む、日本の漫画の機械翻訳評価データセットです。データセットには合計 1593 文、848 シーン、214 ページの漫画が含まれています。東京大学マントラチーム発行。

以前のリリースをチェックしてください:

HyperAI Super Neural: 漫画翻訳、埋め込み AI、東京大学の論文が AAAI'21 に掲載されました 3 同意 · 1 コメント

No. 1: ImageNet 10 画像認識データセット

発行機関：プリンストン大学

含まれる数量:1,500万枚の画像

データ型:画像

推定サイズ:860.55GB

発売時期：2009年

ダウンロードアドレス:hyper.ai/datasets/4889

ImageNet は、スタンフォード大学の Li Feifei 教授らが作成した、現在世界最大の画像認識データベースです。主にマシンビジョンの分野で画像分類とターゲット検出に使用されます。

データセットは WordNet 階層に従って編成されており、各ノード (カテゴリとも呼ばれます) は数百、場合によっては数千の画像で構成されています。データセットには、合計 22,000 の画像カテゴリと約 1,500 万枚の画像が含まれています。

過去の更新情報については、以下をご覧ください。

この年のこの決定により、李飛飛は AI 世界の女王としての地位を確立しました mp.weixin.qq.com/s/VyKUmG512pFJ3XTgVf4Qjg

上記は、この号で推奨される 6 つの hyper.ai 高頻度ダウンロードデータセットです。その他のデータサイエンスの高品質な公開データセットについては、記事の最後をクリックしてください。元の記事を読んで、または、次のリンクにアクセスしてダウンロードしてください。

データセット

この記事は、WeChat パブリックアカウント「HyperAI Super Neural」から最初に公開されたものです。原文は「」でご覧いただけます。30,000 人以上のユーザーによって投票され、収集が推奨された 6 つの古典的な機械学習データセット』

- 以上 -

HyperAI

30,000 人以上のユーザーによって投票され、収集が推奨された 6 つの古典的な機械学習データセット

3年前

情報

データセット

機械学習

内容概要: この号では、画像認識、機械翻訳、リモートセンシング画像などの分野をカバーする、Super Neural によって広くダウンロードされている 6 つのデータセットをまとめています。これらのデータセットは高品質でデータ量が多いため、収集して保存する価値があることが証明されています。キーワード: データセット、機械翻訳、マシンビジョン

注: この記事で取り上げたデータセットはすべて Web サイトからのものです。

データセット

No. 6: Tanks Temple 3D 再構築データセット

発行機関：インテル研究所

含まれる数量:21種類のオブジェクトのHDビデオ

データ型:ビデオ

推定サイズ:52.53GB

発売時期：2017年

ダウンロードアドレス:hyper.ai/datasets/5148

第5位：DOTA航空画像データセット

発行機関：武漢大学

含まれる数量:2,806 枚の航空写真

データ型:画像

推定サイズ:35.38GB

発売時期：2017年

ダウンロードアドレス:hyper.ai/datasets/4920

過去の更新情報については、以下をご覧ください。

DOTA データセット: 2,806 個のリモートセンシング画像、約 190,000 個の注釈付きインスタンス

4位：VGG-Face2 顔認識データセット

発行機関：オックスフォード大学

含まれる数量:331万枚の画像

データ型:画像

推定サイズ:37.49GB

発売時期：2015年

ダウンロードアドレス:hyper.ai/datasets/5711

その3：UCAS-AODリモートセンシング画像データセット

発行機関：中国科学院大学

含まれる数量:910枚の画像

データ型:画像

推定サイズ:3.24GB

発売時期：2014年

ダウンロードアドレス:hyper.ai/datasets/5419

No. 2: OpenMantra 漫画機械翻訳データセット

発行機関：東京大学

含まれる数量:214ページのコミック

データ型:JSON ファイル、画像

推定サイズ:32.46MB

発売時期：2020年

ダウンロードアドレス:hyper.ai/datasets/14137

以前のリリースをチェックしてください:

HyperAI Super Neural: 漫画翻訳、埋め込み AI、東京大学の論文が AAAI'21 に掲載されました 3 同意 · 1 コメント

No. 1: ImageNet 10 画像認識データセット

発行機関：プリンストン大学

含まれる数量:1,500万枚の画像

データ型:画像

推定サイズ:860.55GB

発売時期：2009年

ダウンロードアドレス:hyper.ai/datasets/4889

過去の更新情報については、以下をご覧ください。

この年のこの決定により、李飛飛は AI 世界の女王としての地位を確立しました mp.weixin.qq.com/s/VyKUmG512pFJ3XTgVf4Qjg

データセット

- 以上 -

30,000 人以上のユーザーによって投票され、収集が推奨された 6 つの古典的な機械学習データセット

3年前

情報

データセット

機械学習

内容概要: この号では、画像認識、機械翻訳、リモートセンシング画像などの分野をカバーする、Super Neural によって広くダウンロードされている 6 つのデータセットをまとめています。これらのデータセットは高品質でデータ量が多いため、収集して保存する価値があることが証明されています。キーワード: データセット、機械翻訳、マシンビジョン

注: この記事で取り上げたデータセットはすべて Web サイトからのものです。

データセット

No. 6: Tanks Temple 3D 再構築データセット

発行機関：インテル研究所

含まれる数量:21種類のオブジェクトのHDビデオ

データ型:ビデオ

推定サイズ:52.53GB

発売時期：2017年

ダウンロードアドレス:hyper.ai/datasets/5148

第5位：DOTA航空画像データセット

発行機関：武漢大学

含まれる数量:2,806 枚の航空写真

データ型:画像

推定サイズ:35.38GB

発売時期：2017年

ダウンロードアドレス:hyper.ai/datasets/4920

過去の更新情報については、以下をご覧ください。

DOTA データセット: 2,806 個のリモートセンシング画像、約 190,000 個の注釈付きインスタンス

4位：VGG-Face2 顔認識データセット

発行機関：オックスフォード大学

含まれる数量:331万枚の画像

データ型:画像

推定サイズ:37.49GB

発売時期：2015年

ダウンロードアドレス:hyper.ai/datasets/5711

その3：UCAS-AODリモートセンシング画像データセット

発行機関：中国科学院大学

含まれる数量:910枚の画像

データ型:画像

推定サイズ:3.24GB

発売時期：2014年

ダウンロードアドレス:hyper.ai/datasets/5419

No. 2: OpenMantra 漫画機械翻訳データセット

発行機関：東京大学

含まれる数量:214ページのコミック

データ型:JSON ファイル、画像

推定サイズ:32.46MB

発売時期：2020年

ダウンロードアドレス:hyper.ai/datasets/14137

以前のリリースをチェックしてください:

HyperAI Super Neural: 漫画翻訳、埋め込み AI、東京大学の論文が AAAI'21 に掲載されました 3 同意 · 1 コメント

No. 1: ImageNet 10 画像認識データセット

発行機関：プリンストン大学

含まれる数量:1,500万枚の画像

データ型:画像

推定サイズ:860.55GB

発売時期：2009年

ダウンロードアドレス:hyper.ai/datasets/4889

過去の更新情報については、以下をご覧ください。

この年のこの決定により、李飛飛は AI 世界の女王としての地位を確立しました mp.weixin.qq.com/s/VyKUmG512pFJ3XTgVf4Qjg

データセット

- 以上 -

Command Palette

30,000 人以上のユーザーによって投票され、収集が推奨された 6 つの古典的な機械学習データ セット

No. 6: Tanks Temple 3D 再構築データセット

第5位：DOTA航空画像データセット

4位：VGG-Face2 顔認識データセット

その3：UCAS-AODリモートセンシング画像データセット

No. 2: OpenMantra 漫画機械翻訳データセット

No. 1: ImageNet 10 画像認識データセット

Command Palette

30,000 人以上のユーザーによって投票され、収集が推奨された 6 つの古典的な機械学習データ セット

No. 6: Tanks Temple 3D 再構築データセット

第5位：DOTA航空画像データセット

4位：VGG-Face2 顔認識データセット

その3：UCAS-AODリモートセンシング画像データセット

No. 2: OpenMantra 漫画機械翻訳データセット

No. 1: ImageNet 10 画像認識データセット

関連 ニュース

データセット集｜医用画像データ／臨床データから細胞アトラス／医療Q&Aまで、複数の疾患シナリオを網羅する10の主要データセット

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要

チュートリアル概要｜オープンソースの小型モデルがGPT-5に匹敵する総合的な知能を実現。Qwen 3.5/Gemma 4などの人気モデルをワンストップで評価。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

論文まとめ｜大規模強化学習の最新動向：マイクロソフト、グーグル、スタンフォード大学、中国人民大学、小紅書などが、信用配分、複雑な推論、エージェント強化学習における主要な成果を発表

Command Palette

30,000 人以上のユーザーによって投票され、収集が推奨された 6 つの古典的な機械学習データ セット

No. 6: Tanks Temple 3D 再構築データセット

第5位：DOTA航空画像データセット

4位：VGG-Face2 顔認識データセット

その3：UCAS-AODリモートセンシング画像データセット

No. 2: OpenMantra 漫画機械翻訳データセット

No. 1: ImageNet 10 画像認識データセット

関連 ニュース

データセット集｜医用画像データ／臨床データから細胞アトラス／医療Q&Aまで、複数の疾患シナリオを網羅する10の主要データセット

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要

チュートリアル概要｜オープンソースの小型モデルがGPT-5に匹敵する総合的な知能を実現。Qwen 3.5/Gemma 4などの人気モデルをワンストップで評価。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

論文まとめ｜大規模強化学習の最新動向：マイクロソフト、グーグル、スタンフォード大学、中国人民大学、小紅書などが、信用配分、複雑な推論、エージェント強化学習における主要な成果を発表

関連 ニュース

データセット集｜医用画像データ／臨床データから細胞アトラス／医療Q&Aまで、複数の疾患シナリオを網羅する10の主要データセット

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要

チュートリアル概要｜オープンソースの小型モデルがGPT-5に匹敵する総合的な知能を実現。Qwen 3.5/Gemma 4などの人気モデルをワンストップで評価。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

論文まとめ｜大規模強化学習の最新動向：マイクロソフト、グーグル、スタンフォード大学、中国人民大学、小紅書などが、信用配分、複雑な推論、エージェント強化学習における主要な成果を発表

関連 ニュース

データセット集｜医用画像データ／臨床データから細胞アトラス／医療Q&Aまで、複数の疾患シナリオを網羅する10の主要データセット

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

論文週間レポート｜ProgramBenchはAIによるソフトウェアのゼロからの記述を可能にするが、9つの主要モデルが一斉に失敗。ExoActorは追加の実世界データなしで強力なシーン汎化能力を実証…今週の最先端AI論文の概要

チュートリアル概要｜オープンソースの小型モデルがGPT-5に匹敵する総合的な知能を実現。Qwen 3.5/Gemma 4などの人気モデルをワンストップで評価。

論文週間レポート｜Microsoft MAI-Thinkingは純粋な強化学習の自己進化を探求し、AIME精度97%を達成。VLM³は、アーキテクチャの変更なしにプレーンテキスト座標を使用して3Dタスクの汎化を実現…今週の最先端AI論文の概要

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

論文まとめ｜大規模強化学習の最新動向：マイクロソフト、グーグル、スタンフォード大学、中国人民大学、小紅書などが、信用配分、複雑な推論、エージェント強化学習における主要な成果を発表

30,000 人以上のユーザーによって投票され、収集が推奨された 6 つの古典的な機械学習データセット

30,000 人以上のユーザーによって投票され、収集が推奨された 6 つの古典的な機械学習データセット

関連ニュース

30,000 人以上のユーザーによって投票され、収集が推奨された 6 つの古典的な機械学習データセット

関連ニュース

関連ニュース

関連ニュース