HyperAIHyperAI

Command Palette

Search for a command to run...

百度Unlimited-OCR、単一ショット長文解析を実現

百度が長文書および高解像度画像の解析を可能とするOCRモデル「Unlimited-OCR」をGitHub上に公開した。同モデルは、単一推論で長距離の文書構造を把握するOne-shot Long-horizon Parsingを実現し、従来の複数ステップを要する光学文字認識パイプラインに代わる統合技術として開発された。 技術的な特徴としては、最大3万2768トークンのコンテキスト長に対応しており、長文書の破綻しない解析を可能にする。単一画像処理には解像度と切り取り戦略を最適化したgundamとbaseの二つの設定が用意され、複数ページまたはPDF文書の処理にはbaseモードが推奨される。検証環境はPython 3.12.3とCUDA 12.9に設定されており、Hugging Face Transformersライブラリ経由でNVIDIA GPU環境でのローカル推論が直接実行可能である。 実装とデプロイメントの面では、SGLangサーバーとの連携にも完全対応している。OpenAI互換のストリーミングAPIを公開しており、リアルタイムでの逐次出力が可能だ。PDF解析にはPyMuPDFを用いたページ画像化プロセスが実装され、推論サーバーの自動起動とディレクトリ内の複数ファイルに対する並列リクエスト送信によるバッチ処理がサポートされている。品質安定化のため、重複ngramの制限値や窓幅パラメータをユーザーが調整可能であり、実務レベルのエラー抑制が図られている。 開発過程ではDeepseek-OCRシリーズおよびPaddleOCRの知見が取り入れられている。文書構造の長距離依存関係のモデル化と推論基盤の最適化により、法務文書、技術仕様書、デジタルアーカイブなど、長文および高解像度画像を扱う産業用途での展開が期待される。オープンソースとして公開されている本モデルは、今後開発者コミュニティによる拡張や特定ドメイン向けのカスタマイズが加速する見込みである。

関連リンク