1.1 T arXiv データセット: 170 万件の論文、来世でも見ることができる

6年前

最近、arXiv は 170 万件以上の論文をデータセットにパッケージ化し、kaggle プラットフォームに配置しました。将来的には、論文へのアクセスとダウンロードがより便利になるでしょう。データセットのサイズは現在約 1.1 TB で、毎週の更新で増加し続けています。

170 万件以上の学術論文、サイズ 1.1 TB、これは arXix によって最近 kaggle で公開されたデータセットで、ネチズンはそれについて尋ね、「とてもクールだ!」と叫びました。

データセット編集チームは、これによって関連する研究者がより豊富な機械学習テクノロジーを探索し、より多くの発見や革新を生み出すきっかけとなることを期待していると述べた。

オープンデータセットで論文検索が簡単に

arXiv は 30 年近くにわたり、一般の人々や研究チームに幅広い分野をカバーする学術論文へのオープンアクセスを提供してきました。物理学の膨大な分野から、コンピューターサイエンスの多くの分野、さらには数学、統計学、電気工学、定量生物学、経済学に至るまで、あらゆる分野に及びます。

arXiv には多くの研究論文があり、多くの人が恩恵を受けていますが、ただし、閲覧、検索、並べ替えが不便であるなどの欠点があることがよく報告されています。arXiv で論文検索のヒントを見つけて共有した人もいます。

したがって、arXiv をよりアクセスしやすくするために、コーネル大学は現在、Kaggle で無料のオープン arXiv データセットを提供しています。

このデータセットには 170 万件の学術論文が含まれており、論文のタイトル、著者、カテゴリー、要約、全文 PDF などの論文関連の要素 (特徴) も含まれています。

arXiv のエグゼクティブディレクターである Eleonora Presani 氏は、「arXiv コーパス全体が Kaggle にあることで、arXiv 論文の可能性が大幅に高まります。データセットを Kaggle で利用できるようにすることで、人々がこれらの論文を読んで知識を学ぶだけではなくなりました。」さらに重要なことは、arXiv の背後にあるデータと情報が機械可読形式で公開されていることです。」

**Eleonora Presani は arXiv の初代エグゼクティブディレクターです**

Presani 氏はまた、「arXiv は単なる紙のライブラリではなく、知識を共有するためのプラットフォームです。そのためには、利用可能な知識を提示し説明する方法で革新を続ける必要があります。そして、Kaggle ユーザーは、この革新の限界を押し上げるのに貢献することができます」と述べました。私たちにとってコミュニティと協力するための新しいチャネルになりました。」

視聴: arXiv データセットには何が含まれますか?

arXiv データセットの基本情報は次のとおりです。

arXiv データセット

投稿者: ポール・ギンスパーグ、ムーンショット・ファクトリー、ジャック・ヒダリー

含まれる数量:170万以上の学術論文

データ形式:json

データサイズ:1.1TB

発売時期：2020年8月

ダウンロードアドレス:https://www.kaggle.com/Cornell-University/arxiv

現在、arXiv データセットは、次のような各論文に関連するエントリを含むメタデータファイルを json 形式で提供します。

id: 論文アクセスアドレス。論文にアクセスするために使用できます。
提出者: 論文提出者。
著者: 論文の著者。
タイトル: 論文のタイトル;
コメント: 論文のページ数や図表などのその他の情報。
Journal-ref: 論文が掲載された雑誌情報。
doi: デジタルオブジェクト識別子。
要約: 論文の要約。
カテゴリ: arXiv 上で論文が属するカテゴリまたはタグ。
バージョン: 紙版。

これらの膨大な論文を簡単に閲覧、フィルタリング、レビューすることができます。

さらに、ユーザーは次の 2 つのリンクを介して arXiv 上の各論文に直接アクセスできます。

https://arxiv.org/abs/{id}: 抄録およびその他のリンクを含む紙のページ。
https://arxiv.org/pdf/{id}: 論文の PDF ダウンロードページ。

バッチアクセスも利用できます。ユーザーは、Google Cloud Storage のバケット gs://arxiv-dataset で、または Google API (json ドキュメントと xml ドキュメント) を通じて完全な PDF ファイルを無料で入手できます。

論文の PDF ファイルは、tarpdfs フォルダー内の複数の .tar.gz ファイルにグループ化されており、データセット全体のサイズは約 1.1 TB です。詳細は次のとおりです (以下は 2010 年 1 月 (1001) のフィールド 1、2、および 3 です)。

tarpdfs/arXiv_pdf_1001_001.tar.gz  (gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_001.tar.gz)tarpdfs/arXiv_pdf_1001_002.tar.gz  (gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_002.tar.gz)tarpdfs/arXiv_pdf_1001_003.tar.gz  (gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_003.tar.gz)

ユーザーは、gsutil などのツールを使用してデータをローカルコンピューターにダウンロードすることもできます。

しかし、このデータセットの具体的な使用シナリオは何でしょうか?多くのネチズンは、トピックモデリング、このデータを使用した GPT-3 のトレーニングなどのアイデアをすでに持っています。

arXiv: 学術論文の巨大なリソースライブラリ

科学研究や学術界の学生は、arXiv に精通している必要があります。

これは、物理学、数学、コンピューターサイエンス、生物学の論文のプレプリントを集めた Web サイトであり、科学研究者がアイデアを「活用する」ためのプラットフォームを提供するだけでなく、誰もが論文を検索して読むための巨大なリソースライブラリでもあります。。

2008 年 10 月の時点で、arXiv.org は 500,000 を超えるプレプリントを収集し、2014 年末までにそのコレクションは 100 万に達しました。2016 年 10 月の時点で、arXiv への投稿は月間 10,000 記事を超えました。

**現在、arXiv には約 174 万 4600 件の学術論文があります。**

arXiv はもともと、1991 年に物理学者のポールギンズバーグによって設立された Web サイトでした。当初は物理学の論文のプレプリントを収集することを目的としていたが、後に天文学、数学、その他の分野も含まれるようになりました。

arXiv はもともとロスアラモス国立研究所 (LANL) でホストされていたため、初期の頃は「LANL プレプリントデータベース」と呼ばれていました。 arXiv は現在コーネル大学に拠点を置き、世界中にミラーサイトを持っています。この Web サイトは 1999 年に arXiv.org に名前変更されました。

さて、平たく言えば、arXiv は「他人を利用する」ために使用される Web サイトであり、論文に掲載される前に自分のアイデアが他人に盗用されるのを防ぐために、研究者はまず arXiv 上でその素案を公開し、自分の独創性を証明します。。

参考文献:

https://blogs.cornell.edu/arxiv/2020/08/05/leveraging-machine-learning-to-fuel-new-discoveries-with-the-arxiv-dataset/

https://www.kaggle.com/Cornell-University/arxiv?select=arxiv-metadata-oai-snapshot.json

https://zh.wikipedia.org/wiki/ArXiv

- 以上 -

1.1 T arXiv データセット: 170 万件の論文、来世でも見ることができる

6年前

大きな工場の事務

オープンデータセットで論文検索が簡単に

したがって、arXiv をよりアクセスしやすくするために、コーネル大学は現在、Kaggle で無料のオープン arXiv データセットを提供しています。

視聴: arXiv データセットには何が含まれますか?

arXiv データセットの基本情報は次のとおりです。

arXiv データセット

投稿者: ポール・ギンスパーグ、ムーンショット・ファクトリー、ジャック・ヒダリー

含まれる数量:170万以上の学術論文

データ形式:json

データサイズ:1.1TB

発売時期：2020年8月

ダウンロードアドレス:https://www.kaggle.com/Cornell-University/arxiv

現在、arXiv データセットは、次のような各論文に関連するエントリを含むメタデータファイルを json 形式で提供します。

id: 論文アクセスアドレス。論文にアクセスするために使用できます。
提出者: 論文提出者。
著者: 論文の著者。
タイトル: 論文のタイトル;
コメント: 論文のページ数や図表などのその他の情報。
Journal-ref: 論文が掲載された雑誌情報。
doi: デジタルオブジェクト識別子。
要約: 論文の要約。
カテゴリ: arXiv 上で論文が属するカテゴリまたはタグ。
バージョン: 紙版。

これらの膨大な論文を簡単に閲覧、フィルタリング、レビューすることができます。

さらに、ユーザーは次の 2 つのリンクを介して arXiv 上の各論文に直接アクセスできます。

https://arxiv.org/abs/{id}: 抄録およびその他のリンクを含む紙のページ。
https://arxiv.org/pdf/{id}: 論文の PDF ダウンロードページ。

tarpdfs/arXiv_pdf_1001_001.tar.gz  (gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_001.tar.gz)tarpdfs/arXiv_pdf_1001_002.tar.gz  (gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_002.tar.gz)tarpdfs/arXiv_pdf_1001_003.tar.gz  (gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_003.tar.gz)

ユーザーは、gsutil などのツールを使用してデータをローカルコンピューターにダウンロードすることもできます。

arXiv: 学術論文の巨大なリソースライブラリ

科学研究や学術界の学生は、arXiv に精通している必要があります。

参考文献:

https://blogs.cornell.edu/arxiv/2020/08/05/leveraging-machine-learning-to-fuel-new-discoveries-with-the-arxiv-dataset/

https://www.kaggle.com/Cornell-University/arxiv?select=arxiv-metadata-oai-snapshot.json

https://zh.wikipedia.org/wiki/ArXiv

- 以上 -

Command Palette

1.1 T arXiv データセット: 170 万件の論文、来世でも見ることができる

オープンデータセットで論文検索が簡単に

視聴: arXiv データ セットには何が含まれますか?

arXiv: 学術論文の巨大なリソース ライブラリ

Command Palette

1.1 T arXiv データセット: 170 万件の論文、来世でも見ることができる

オープンデータセットで論文検索が簡単に

視聴: arXiv データ セットには何が含まれますか?

arXiv: 学術論文の巨大なリソース ライブラリ

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

MITなどが開発したGPU電力推定フレームワークであるEnergAIzerは、平均1.8秒で予測を完了し、誤差は約81 TP3Tです。

コーネル大学は、電子顕微鏡画像をわずか2～5分で材料科学的な知見に変換できるマルチエージェントプラットフォーム「EMSeek」を開発した。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

ICLR 2026 | タスクあたりの学習可能パラメータを125倍削減！新しい手法であるタスクトークンが、具現化された知能による複雑なタスク能力の向上を支援

わずか30分で、生物学的マルチエージェントであるRobinは550件の研究論文を統合し、自律的な研究ループを確立して、びまん性加齢黄斑変性症（dAMD）の候補治療法を特定した。

Command Palette

1.1 T arXiv データセット: 170 万件の論文、来世でも見ることができる

オープンデータセットで論文検索が簡単に

視聴: arXiv データ セットには何が含まれますか?

arXiv: 学術論文の巨大なリソース ライブラリ

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

MITなどが開発したGPU電力推定フレームワークであるEnergAIzerは、平均1.8秒で予測を完了し、誤差は約81 TP3Tです。

コーネル大学は、電子顕微鏡画像をわずか2～5分で材料科学的な知見に変換できるマルチエージェントプラットフォーム「EMSeek」を開発した。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

ICLR 2026 | タスクあたりの学習可能パラメータを125倍削減！新しい手法であるタスクトークンが、具現化された知能による複雑なタスク能力の向上を支援

わずか30分で、生物学的マルチエージェントであるRobinは550件の研究論文を統合し、自律的な研究ループを確立して、びまん性加齢黄斑変性症（dAMD）の候補治療法を特定した。

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

MITなどが開発したGPU電力推定フレームワークであるEnergAIzerは、平均1.8秒で予測を完了し、誤差は約81 TP3Tです。

コーネル大学は、電子顕微鏡画像をわずか2～5分で材料科学的な知見に変換できるマルチエージェントプラットフォーム「EMSeek」を開発した。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

ICLR 2026 | タスクあたりの学習可能パラメータを125倍削減！新しい手法であるタスクトークンが、具現化された知能による複雑なタスク能力の向上を支援

わずか30分で、生物学的マルチエージェントであるRobinは550件の研究論文を統合し、自律的な研究ループを確立して、びまん性加齢黄斑変性症（dAMD）の候補治療法を特定した。

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

ByteDanceは、理解、生成、編集の3つの要素を含む3BモデルであるLanceをオープンソース化した。シンガポール国立大学は、588本の動画と非言語的な質問応答を網羅したViMUデータセットを提案した。

MITなどが開発したGPU電力推定フレームワークであるEnergAIzerは、平均1.8秒で予測を完了し、誤差は約81 TP3Tです。

コーネル大学は、電子顕微鏡画像をわずか2～5分で材料科学的な知見に変換できるマルチエージェントプラットフォーム「EMSeek」を開発した。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

ICLR 2026 | タスクあたりの学習可能パラメータを125倍削減！新しい手法であるタスクトークンが、具現化された知能による複雑なタスク能力の向上を支援

わずか30分で、生物学的マルチエージェントであるRobinは550件の研究論文を統合し、自律的な研究ループを確立して、びまん性加齢黄斑変性症（dAMD）の候補治療法を特定した。

視聴: arXiv データセットには何が含まれますか?

arXiv: 学術論文の巨大なリソースライブラリ

視聴: arXiv データセットには何が含まれますか?

arXiv: 学術論文の巨大なリソースライブラリ

関連ニュース

視聴: arXiv データセットには何が含まれますか?

arXiv: 学術論文の巨大なリソースライブラリ

関連ニュース

関連ニュース

関連ニュース