日付

8ヶ月前

サイズ

71.74 GB

データセット構成

論文URL

2502.18443

ライセンス

Other

タグ

OCR

olmOCR-mix-1025は、2025年にアレンAI研究所によって公開された大規模で高品質のPDF文書OCRデータセットです。関連論文は「olmOCR: ビジョン言語モデルで PDF 内の数兆個のトークンをロック解除このシステムは、光学式文字認識 (OCR) モデル、文書理解モデル、およびマルチモーダル大規模モデルのトレーニング、微調整、および評価をサポートすることを目的としています。このデータセットには約270,250ページのPDF文書が含まれており、そのうち267,962ページがトレーニングセット、2,288ページが評価セットです。学術論文、アーカイブ文書、スキャンされた書籍テキスト、歴史的写本など、様々な種類の文書を網羅しています。各サブセットは主に英語で、全体の割合は91%から99%の間です。また、スペイン語、フランス語、ドイツ語、イタリア語、ラテン語、インドネシア語の文書も少数含まれています。

データセットの配布

00_documents (一般文書): 合計 232,790 ページ (231,668 回のトレーニングセッション / 1,122 回の評価セッション)、言語の分布は次のとおりです: 英語 94.46%、スペイン語 0.58%、フランス語 0.46%、インドネシア語 0.45%、ドイツ語 0.42%。
01_books (書籍とドキュメント): 合計 17,474 ページ (16,575 トレーニング / 899 評価)、言語の分布は次のとおりです: 英語 91.28%、フランス語 0.54%、ラテン語 0.31%、ドイツ語 0.27%、ヒンディー語 0.12%。
02_loc_transcripts (議会記録/演説トランスクリプト): 合計 9,989 ページ (トレーニング用 9,891 ページ、評価用 98 ページ)、言語の分布は次のとおりです: 英語 98.21%、スペイン語 0.59%、フランス語 0.46%、ドイツ語 0.45%、イタリア語 0.11%。
03_national_archives: 合計 9,997 ページ (9,828 のトレーニング / 169 の評価)、言語の分布は次のとおりです: 英語 99.82%、スペイン語 0.12%、フランス語 0.02%、スウェーデン語 0.01%、ドイツ語 0.01%。 olmOCR-mix-1025は、以前のバージョンolmOCR-mix-0225と比較して、アノテーション品質とドキュメントカバレッジがさらに向上しています。このバージョンでは、GPT-4.1と改良されたプロンプト戦略を用いてOCRを生成することで、テキストの読み上げ順序が元のレイアウトとより一貫性を保ち、デジタルネイティブなコンテンツ構造を維持しています。また、データセット内の数式は標準化され、表はHTMLで表示され、基本的な画像Altテキストが追加されました。さらに、書籍、アーカイブ、手書き文書のサンプルが追加され、ドキュメントベースのシナリオにおける堅牢なモデルトレーニングにより適しています。

olmOCR-mix-1025.torrent

シーディング 1ダウンロード中 0完了 8総ダウンロード数 101

olmOCR-mix-1025/
- README.md
  2.78 KB
- README.txt
  5.56 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

LightOnOCR-mix-0126 テキスト転写データセット

5ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用

Discordで議論

日付

8ヶ月前

サイズ

71.74 GB

データセット構成

論文URL

2502.18443

ライセンス

Other

タグ

OCR

データセットの配布

00_documents (一般文書): 合計 232,790 ページ (231,668 回のトレーニングセッション / 1,122 回の評価セッション)、言語の分布は次のとおりです: 英語 94.46%、スペイン語 0.58%、フランス語 0.46%、インドネシア語 0.45%、ドイツ語 0.42%。
01_books (書籍とドキュメント): 合計 17,474 ページ (16,575 トレーニング / 899 評価)、言語の分布は次のとおりです: 英語 91.28%、フランス語 0.54%、ラテン語 0.31%、ドイツ語 0.27%、ヒンディー語 0.12%。
02_loc_transcripts (議会記録/演説トランスクリプト): 合計 9,989 ページ (トレーニング用 9,891 ページ、評価用 98 ページ)、言語の分布は次のとおりです: 英語 98.21%、スペイン語 0.59%、フランス語 0.46%、ドイツ語 0.45%、イタリア語 0.11%。
03_national_archives: 合計 9,997 ページ (9,828 のトレーニング / 169 の評価)、言語の分布は次のとおりです: 英語 99.82%、スペイン語 0.12%、フランス語 0.02%、スウェーデン語 0.01%、ドイツ語 0.01%。 olmOCR-mix-1025は、以前のバージョンolmOCR-mix-0225と比較して、アノテーション品質とドキュメントカバレッジがさらに向上しています。このバージョンでは、GPT-4.1と改良されたプロンプト戦略を用いてOCRを生成することで、テキストの読み上げ順序が元のレイアウトとより一貫性を保ち、デジタルネイティブなコンテンツ構造を維持しています。また、データセット内の数式は標準化され、表はHTMLで表示され、基本的な画像Altテキストが追加されました。さらに、書籍、アーカイブ、手書き文書のサンプルが追加され、ドキュメントベースのシナリオにおける堅牢なモデルトレーニングにより適しています。

olmOCR-mix-1025.torrent

シーディング 1ダウンロード中 0完了 8総ダウンロード数 101

olmOCR-mix-1025/
- README.md
  2.78 KB
- README.txt
  5.56 KB

LightOnOCR-mix-0126 テキスト転写データセット

5ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

olmOCR-mix-1025 文書認識データセット

データセットの配布

AIでAIを構築

HyperAI Newsletters

Command Palette

olmOCR-mix-1025 文書認識データセット

データセットの配布

LightOnOCR-mix-0126 テキスト転写データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

olmOCR-mix-1025 文書認識データセット

データセットの配布

LightOnOCR-mix-0126 テキスト転写データセット

AIでAIを構築

HyperAI Newsletters

LightOnOCR-mix-0126 テキスト転写データセット

LightOnOCR-mix-0126 テキスト転写データセット