Command Palette

Search for a command to run...

olmOCR-mix-0225 大規模PDF文書データセット

日付

8ヶ月前

サイズ

52.16 GB

組織

アレン人工知能研究所

公開URL

github.com

論文URL

arxiv.org

ライセンス

CC BY 4.0

olmOCR-mix-0225 は、光学式文字認識 (OCR) モデルのトレーニングと最適化のために設計された、大規模で高品質の PDF ドキュメント データセットです。このデータセットは2025年にアレンAI研究所によって公開され、関連する論文の結果は「olmOCR: ビジョン言語モデルで PDF 内の数兆個のトークンをロック解除”。

データセットの特性

このデータセットには、学術論文、法律文書、マニュアルなど、さまざまなタイプを網羅した約 25 万ページの PDF コンテンツが含まれています。データセットにはテキスト コンテンツだけでなく、各ページの主要要素 (テキスト ブロックや画像など) の座標情報も抽出されます。この情報はモデル プロンプトに動的に挿入されるため、モデルの幻覚が大幅に軽減されます。このデータセットは、独自の OCR ドキュメント処理パイプラインをトレーニング、微調整、または評価するために使用できます。

さらに、データセットは GPT-4o を使用して注釈付けされ、注釈の高品質と一貫性が確保されます。データは、公開ウェブサイトからクロールされた PDF 文書やインターネット アーカイブの書籍など、さまざまなソースから取得されます。データセットにはテキスト コンテンツだけでなく、各ページの主要要素 (テキスト ブロックや画像など) の座標情報も抽出されます。この情報はモデル プロンプトに動的に挿入されるため、モデルの幻覚が大幅に軽減されます。

olmOCR-mix-0225.torrent
シーディング 1ダウンロード中 0ダウンロード完了 233総ダウンロード数 314
  • olmOCR-mix-0225/
    • README.md
      1.87 KB
    • README.txt
      3.73 KB
      • data/
        • olmOCR-mix-0225.zip
          52.16 GB

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
olmOCR-mix-0225 大規模PDF文書データセット | データセット | HyperAI超神経