HyperAIHyperAI

Command Palette

Search for a command to run...

olmOCR-mix-0225 大規模PDF文書データセット

Date

10ヶ月前

Size

52.16 GB

Organization

アレン人工知能研究所

Publish URL

github.com

Paper URL

arxiv.org

License

CC BY 4.0

Tags

olmOCR-mix-0225 は、光学式文字認識 (OCR) モデルのトレーニングと最適化のために設計された、大規模で高品質の PDF ドキュメント データセットです。このデータセットは2025年にアレンAI研究所によって公開され、関連する論文の結果は「olmOCR: ビジョン言語モデルで PDF 内の数兆個のトークンをロック解除”。

データセットの特性

このデータセットには、学術論文、法律文書、マニュアルなど、さまざまなタイプを網羅した約 25 万ページの PDF コンテンツが含まれています。データセットにはテキスト コンテンツだけでなく、各ページの主要要素 (テキスト ブロックや画像など) の座標情報も抽出されます。この情報はモデル プロンプトに動的に挿入されるため、モデルの幻覚が大幅に軽減されます。このデータセットは、独自の OCR ドキュメント処理パイプラインをトレーニング、微調整、または評価するために使用できます。

さらに、データセットは GPT-4o を使用して注釈付けされ、注釈の高品質と一貫性が確保されます。データは、公開ウェブサイトからクロールされた PDF 文書やインターネット アーカイブの書籍など、さまざまなソースから取得されます。データセットにはテキスト コンテンツだけでなく、各ページの主要要素 (テキスト ブロックや画像など) の座標情報も抽出されます。この情報はモデル プロンプトに動的に挿入されるため、モデルの幻覚が大幅に軽減されます。

olmOCR-mix-0225.torrent
Seeding 1Downloading 0Completed 254Total Downloads 382
  • olmOCR-mix-0225/
    • README.md
      1.87 KB
    • README.txt
      3.73 KB
      • data/
        • olmOCR-mix-0225.zip
          52.16 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています