Command Palette
Search for a command to run...
olmOCR-mix-1025 文書認識データセット
olmOCR-mix-1025は、2025年にアレンAI研究所によって公開された大規模で高品質のPDF文書OCRデータセットです。関連論文は「olmOCR: ビジョン言語モデルで PDF 内の数兆個のトークンをロック解除このシステムは、光学式文字認識 (OCR) モデル、文書理解モデル、およびマルチモーダル大規模モデルのトレーニング、微調整、および評価をサポートすることを目的としています。
このデータセットには約270,250ページのPDF文書が含まれており、そのうち267,962ページがトレーニングセット、2,288ページが評価セットです。学術論文、アーカイブ文書、スキャンされた書籍テキスト、歴史的写本など、様々な種類の文書を網羅しています。各サブセットは主に英語で、全体の割合は91%から99%の間です。また、スペイン語、フランス語、ドイツ語、イタリア語、ラテン語、インドネシア語の文書も少数含まれています。
データセットの配布
- 00_documents (一般文書): 合計 232,790 ページ (231,668 回のトレーニング セッション / 1,122 回の評価セッション)、言語の分布は次のとおりです: 英語 94.46%、スペイン語 0.58%、フランス語 0.46%、インドネシア語 0.45%、ドイツ語 0.42%。
- 01_books (書籍とドキュメント): 合計 17,474 ページ (16,575 トレーニング / 899 評価)、言語の分布は次のとおりです: 英語 91.28%、フランス語 0.54%、ラテン語 0.31%、ドイツ語 0.27%、ヒンディー語 0.12%。
- 02_loc_transcripts (議会記録/演説トランスクリプト): 合計 9,989 ページ (トレーニング用 9,891 ページ、評価用 98 ページ)、言語の分布は次のとおりです: 英語 98.21%、スペイン語 0.59%、フランス語 0.46%、ドイツ語 0.45%、イタリア語 0.11%。
- 03_national_archives: 合計 9,997 ページ (9,828 のトレーニング / 169 の評価)、言語の分布は次のとおりです: 英語 99.82%、スペイン語 0.12%、フランス語 0.02%、スウェーデン語 0.01%、ドイツ語 0.01%。
olmOCR-mix-1025は、以前のバージョンolmOCR-mix-0225と比較して、アノテーション品質とドキュメントカバレッジがさらに向上しています。このバージョンでは、GPT-4.1と改良されたプロンプト戦略を用いてOCRを生成することで、テキストの読み上げ順序が元のレイアウトとより一貫性を保ち、デジタルネイティブなコンテンツ構造を維持しています。また、データセット内の数式は標準化され、表はHTMLで表示され、基本的な画像Altテキストが追加されました。さらに、書籍、アーカイブ、手書き文書のサンプルが追加され、ドキュメントベースのシナリオにおける堅牢なモデルトレーニングにより適しています。