Command Palette

Search for a command to run...

2ヶ月前

olmOCR:視覚言語モデルによるPDF内に眠るトランプルのトークンを解き放つ

{Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski}

olmOCR:視覚言語モデルによるPDF内に眠るトランプルのトークンを解き放つ

要約

PDFドキュメントは、言語モデルの学習に向けた数兆単位の新規かつ高品質なトークンを提供する可能性を秘めています。しかし、これらのドキュメントはフォーマットや視覚的レイアウトが多様であり、言語モデルの利用に適した内容を正確に抽出・表現する上で大きな課題を伴います。従来のオープンソースツールは、視覚言語モデル(VLM)に比べて抽出品質が低くなる傾向にあり、一方で最良のVLMに依存すると、コストが極めて高くなる(例:GPT-4oでは100万ページあたり6,240米ドル以上)か、PDFをプロプライエタリAPIに送信できない環境では実用不可能な場合があります。本研究では、構造化されたコンテンツ(セクション、表、リスト、式など)を保持しつつ、自然な読み順でクリーンな線形化されたプレーンテキストに変換するオープンソースツールキット「olmOCR」を提案します。olmOCRは、10万件以上のクロールされたPDFから構成される26万ページ規模のサンプル(olmOCR-mix-0225)を用いて微調整された7B規模の視覚言語モデル(VLM)を実行し、グラフィックス、手書きテキスト、低品質スキャンなど多様な特徴を持つデータに適応しています。olmOCRは大規模バッチ処理に最適化されており、異なるハードウェア環境に柔軟に対応可能で、100万ページのPDF変換コストをわずか176米ドルに抑えることができます。既存システムとの比較を支援するため、本研究では、式、表、極小フォント、古びたスキャンなど、最良のツールやVLMでも依然として困難なコンテンツを含む1,400件のPDFから構成される「olmOCR-Bench」というカレントセットも提案します。評価結果から、olmOCRはGPT-4o、Gemini Flash 2、Qwen-2.5-VLといったトップクラスのVLMをも上回る性能を発揮することが明らかになりました。本研究では、olmOCRのすべての構成要素を公開しています。具体的には、微調整済みVLMモデル、学習コードおよびデータ、vLLMおよびSGLangバックエンドをサポートする効率的な推論パイプライン、およびベンチマークとしてのolmOCR-Benchを含みます。

コードリポジトリ

allenai/olmocr
公式
pytorch
GitHubで言及

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています