HyperAI超神経

olmOCR-mix-0225 大規模PDF文書データセット

日付

2ヶ月前

サイズ

52.16 GB

組織

アレン人工知能研究所

公開URL

github.com

ライセンス

CC BY 4.0

olmOCR-mix-0225 は、光学式文字認識 (OCR) モデルのトレーニングと最適化のために設計された、大規模で高品質の PDF ドキュメント データセットです。このデータセットは2025年にアレンAI研究所によって公開され、関連する論文の結果は「olmOCR: ビジョン言語モデルで PDF 内の数兆個のトークンをロック解除”。

データセットの特性

このデータセットには、学術論文、法律文書、マニュアルなど、さまざまなタイプを網羅した約 25 万ページの PDF コンテンツが含まれています。データセットにはテキスト コンテンツだけでなく、各ページの主要要素 (テキスト ブロックや画像など) の座標情報も抽出されます。この情報はモデル プロンプトに動的に挿入されるため、モデルの幻覚が大幅に軽減されます。このデータセットは、独自の OCR ドキュメント処理パイプラインをトレーニング、微調整、または評価するために使用できます。

さらに、データセットは GPT-4o を使用して注釈付けされ、注釈の高品質と一貫性が確保されます。データは、公開ウェブサイトからクロールされた PDF 文書やインターネット アーカイブの書籍など、さまざまなソースから取得されます。データセットにはテキスト コンテンツだけでなく、各ページの主要要素 (テキスト ブロックや画像など) の座標情報も抽出されます。この情報はモデル プロンプトに動的に挿入されるため、モデルの幻覚が大幅に軽減されます。

olmOCR-mix-0225.torrent
シーディング 1ダウンロード中 2ダウンロード完了 56総ダウンロード数 81
  • olmOCR-mix-0225/
    • README.md
      1.87 KB
    • README.txt
      3.73 KB
      • data/
        • olmOCR-mix-0225.zip
          52.16 GB