olmOCR-mix-0225 大規模PDF文書データセット
olmOCR-mix-0225 は、光学式文字認識 (OCR) モデルのトレーニングと最適化のために設計された、大規模で高品質の PDF ドキュメント データセットです。このデータセットは2025年にアレンAI研究所によって公開され、関連する論文の結果は「olmOCR: ビジョン言語モデルで PDF 内の数兆個のトークンをロック解除”。
データセットの特性
このデータセットには、学術論文、法律文書、マニュアルなど、さまざまなタイプを網羅した約 25 万ページの PDF コンテンツが含まれています。データセットにはテキスト コンテンツだけでなく、各ページの主要要素 (テキスト ブロックや画像など) の座標情報も抽出されます。この情報はモデル プロンプトに動的に挿入されるため、モデルの幻覚が大幅に軽減されます。このデータセットは、独自の OCR ドキュメント処理パイプラインをトレーニング、微調整、または評価するために使用できます。
さらに、データセットは GPT-4o を使用して注釈付けされ、注釈の高品質と一貫性が確保されます。データは、公開ウェブサイトからクロールされた PDF 文書やインターネット アーカイブの書籍など、さまざまなソースから取得されます。データセットにはテキスト コンテンツだけでなく、各ページの主要要素 (テキスト ブロックや画像など) の座標情報も抽出されます。この情報はモデル プロンプトに動的に挿入されるため、モデルの幻覚が大幅に軽減されます。
olmOCR-mix-0225.torrent
シーディング 1ダウンロード中 2ダウンロード完了 56総ダウンロード数 81