Command Palette

Search for a command to run...

1日前

フニエンOCR 技術報告

フニエンOCR 技術報告

要約

本稿では、OCRタスクに特化した商用水準のオープンソース・軽量型(10億パラメータ)視覚言語モデル(VLM)「HunyuanOCR」を紹介する。このモデルのアーキテクチャは、ネイティブな視覚Transformer(ViT)と軽量型大規模言語モデル(LLM)をMLPアダプタで接続した構成であり、効率的かつ高精度な処理を実現している。HunyuanOCRは、商用APIや従来の処理パイプライン、さらにはより大きなモデル(例:Qwen3-VL-4B)を上回る優れた性能を発揮し、特にテキストスポットティングやパースングといった認知タスクにおいて、既存の公開ソリューションを上回る成果を示した。また、情報抽出(IE)やテキスト画像翻訳といった意味理解タスクにおいても優れた性能を発揮し、ICDAR 2025 DIMTチャレンジ(小規模モデル部門)で1位を獲得した。さらに、30億パラメータ未満のVLMの中では、OCRBench評価で最先端(SOTA)の結果を達成した。HunyuanOCRは以下の3つの観点で画期的な進展を遂げた。1)汎用性と効率性の統合:軽量なフレームワーク内に、テキストスポットティング、パースング、情報抽出(IE)、VQA、翻訳といった主要機能を包括的に統合。これにより、機能に制限がある「OCR専用モデル」や、効率が低い「汎用VLM」の課題を克服した。2)簡素化されたエンド・トゥ・エンドアーキテクチャ:完全なエンド・トゥ・エンド方式を採用することで、レイアウト解析などの前処理モジュールに依存しなくなった。これにより、従来のパイプラインで生じがちな誤差伝播の根本的問題が解消され、システムの導入・運用が大幅に簡素化された。3)データ駆動型と強化学習(RL)戦略:高品質なデータの重要性を確認し、業界で初めて強化学習(RL)戦略がOCRタスクにおいて顕著な性能向上をもたらすことを実証した。HunyuanOCRは正式にHuggingFace上でオープンソース化されており、vLLMを基盤とする高性能なデプロイ解決策も提供している。これにより、実用環境における処理効率はトップレベルに位置づけられる。本モデルが先端研究の推進に貢献し、産業応用の基盤となることを期待している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
フニエンOCR 技術報告 | 論文 | HyperAI超神経