日付

1年前

サイズ

52.16 GB

データセット構成

公開URL

github.com

Paper URL

arxiv.org

ライセンス

CC BY 4.0

タグ

OCR

olmOCR-mix-0225 は、光学式文字認識 (OCR) モデルのトレーニングと最適化のために設計された、大規模で高品質の PDF ドキュメントデータセットです。このデータセットは2025年にアレンAI研究所によって公開され、関連する論文の結果は「olmOCR: ビジョン言語モデルで PDF 内の数兆個のトークンをロック解除”。

データセットの特性

このデータセットには、学術論文、法律文書、マニュアルなど、さまざまなタイプを網羅した約 25 万ページの PDF コンテンツが含まれています。データセットにはテキストコンテンツだけでなく、各ページの主要要素 (テキストブロックや画像など) の座標情報も抽出されます。この情報はモデルプロンプトに動的に挿入されるため、モデルの幻覚が大幅に軽減されます。このデータセットは、独自の OCR ドキュメント処理パイプラインをトレーニング、微調整、または評価するために使用できます。さらに、データセットは GPT-4o を使用して注釈付けされ、注釈の高品質と一貫性が確保されます。データは、公開ウェブサイトからクロールされた PDF 文書やインターネットアーカイブの書籍など、さまざまなソースから取得されます。データセットにはテキストコンテンツだけでなく、各ページの主要要素 (テキストブロックや画像など) の座標情報も抽出されます。この情報はモデルプロンプトに動的に挿入されるため、モデルの幻覚が大幅に軽減されます。

olmOCR-mix-0225.torrent

シーディング 1ダウンロード中 0完了 279総ダウンロード数 415

olmOCR-mix-0225/
- README.md
  1.87 KB
- README.txt
  3.73 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用

Discordで議論

日付

1年前

サイズ

52.16 GB

データセット構成

公開URL

github.com

Paper URL

arxiv.org

ライセンス

CC BY 4.0

タグ

OCR

データセットの特性

olmOCR-mix-0225.torrent

シーディング 1ダウンロード中 0完了 279総ダウンロード数 415

olmOCR-mix-0225/
- README.md
  1.87 KB
- README.txt
  3.73 KB

クリエイティブ専門家向けクリエイティブタスク指示データセット

2ヶ月前

LightOnOCR-mix-0126 テキスト転写データセット

5ヶ月前

TransPhy3D 透明反射合成ビデオデータセット

5ヶ月前

MCIFマルチモーダルクロスランゲージ指導データセット

6ヶ月前

MCD-rPPGマルチカメラ遠隔光電式容積脈波記録データセット

6ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

データセットの特性

AIでAIを構築

HyperAI Newsletters

データセットの特性

関連データセット

クリエイティブ専門家向けクリエイティブタスク指示データセット

LightOnOCR-mix-0126 テキスト転写データセット

TransPhy3D 透明反射合成ビデオデータセット

MCIFマルチモーダルクロスランゲージ指導データセット

MCD-rPPGマルチカメラ遠隔光電式容積脈波記録データセット

AIでAIを構築

HyperAI Newsletters

データセットの特性

関連データセット

クリエイティブ専門家向けクリエイティブタスク指示データセット

LightOnOCR-mix-0126 テキスト転写データセット

TransPhy3D 透明反射合成ビデオデータセット

MCIFマルチモーダルクロスランゲージ指導データセット

MCD-rPPGマルチカメラ遠隔光電式容積脈波記録データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

クリエイティブ専門家向けクリエイティブタスク指示データセット

LightOnOCR-mix-0126 テキスト転写データセット

TransPhy3D 透明反射合成ビデオデータセット

MCIFマルチモーダルクロスランゲージ指導データセット

MCD-rPPGマルチカメラ遠隔光電式容積脈波記録データセット

関連データセット

クリエイティブ専門家向けクリエイティブタスク指示データセット

LightOnOCR-mix-0126 テキスト転写データセット

TransPhy3D 透明反射合成ビデオデータセット

MCIFマルチモーダルクロスランゲージ指導データセット

MCD-rPPGマルチカメラ遠隔光電式容積脈波記録データセット

Command Palette

olmOCR-mix-0225 大規模PDF文書データセット

データセットの特性

AIでAIを構築

HyperAI Newsletters

Command Palette

olmOCR-mix-0225 大規模PDF文書データセット

データセットの特性

関連データセット

クリエイティブ専門家向けクリエイティブタスク指示データセット

LightOnOCR-mix-0126 テキスト転写データセット

TransPhy3D 透明反射合成ビデオデータセット

MCIFマルチモーダルクロスランゲージ指導データセット

MCD-rPPGマルチカメラ遠隔光電式容積脈波記録データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

olmOCR-mix-0225 大規模PDF文書データセット

データセットの特性

関連データセット

クリエイティブ専門家向けクリエイティブタスク指示データセット

LightOnOCR-mix-0126 テキスト転写データセット

TransPhy3D 透明反射合成ビデオデータセット

MCIFマルチモーダルクロスランゲージ指導データセット

MCD-rPPGマルチカメラ遠隔光電式容積脈波記録データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

クリエイティブ専門家向けクリエイティブタスク指示データセット

LightOnOCR-mix-0126 テキスト転写データセット

TransPhy3D 透明反射合成ビデオデータセット

MCIFマルチモーダルクロスランゲージ指導データセット

MCD-rPPGマルチカメラ遠隔光電式容積脈波記録データセット

関連データセット

クリエイティブ専門家向けクリエイティブタスク指示データセット

LightOnOCR-mix-0126 テキスト転写データセット

TransPhy3D 透明反射合成ビデオデータセット

MCIFマルチモーダルクロスランゲージ指導データセット

MCD-rPPGマルチカメラ遠隔光電式容積脈波記録データセット