HyperAIHyperAI

Command Palette

Search for a command to run...

PP-OCRv6、Hugging Faceで50言語OCR公開

パドルOCRチームは、次世代ユニバーサルOCRモデル「PP-OCRv6」をHugging Face Hub上で公開した。本モデルは文書、スクリーンショット、多言語画像、デジタル表示板、産業用ラベルなど現実世界の多様なテキスト検出・認識に対応し、150万パラメータから3450万パラメータの3ティアを提供する。中型と小型モデルは簡体字中国語、繁体字中国語、英語、日本語を含む50言語を単一アーキテクチャでカバーし、多言語OCR環境におけるモデル分散を解消する。 検出と認識パイプラインにPPLCNetV4を統一採用し、ティア間の設計一貫性を確保。テキスト検出にはマルチスケール対応のRepLKFPNを、認識にはローカルコンテキストとグローバルアテンションを統合したEncoderWithLightSVTRをそれぞれ導入した。これによりパドルOCR公式ベンチマークでPP-OCRv6_mediumは検出Hmean 86.2%、認識精度83.2%を達成。PP-OCRv5_server比で検出精度が4.6ポイント、認識精度が5.1ポイント向上した。 実装環境ではPaddleOCR 3.7の統一出力インターフェースを通じて、Paddle Inference、Transformers、ONNX Runtimeの3推論バックエンドを柔軟に選択可能。リソース制約のあるエッジデバイスからサーバーサイドインフラまで、デプロイ要件に最適化したワークフロー構築をサポートする。構造化JSON出力や可視化機能に対応し、RAGやドキュメント解析基盤への組み込みも容易である。 Hugging Face Spacesではオンライン評価デモが提供され、Safetensors、Paddleモデル、ONNX形式のアセットがコレクション化されている。同チームはVLM時代の到来後も、高精度かつ低レイテンシーな構造化テキスト抽出ニーズに対し、PP-OCRv6が柔軟なデプロイ選択肢と実用的なパフォーマンスを提供すると位置付けており、開発者のOCR実装標準としての採用拡大が期待される。

関連リンク

PP-OCRv6、Hugging Faceで50言語OCR公開 | 人気の記事 | HyperAI超神経