8ヶ月前

概要

大量の文書データは、テキスト情報が含まれていない生画像などの非構造化形式で存在しています。実用的な文書画像解析システムを設計することは、意味のある一方で困難な課題です。以前の研究では、知能型文書解析システムPP-Structureを提案しました。本研究では、PP-Structureの機能と性能をさらに向上させるために、PP-StructureV2を提案します。このシステムには2つのサブシステムが含まれています：レイアウト情報抽出と主要情報抽出。まず、画像方向補正モジュールとレイアウト復元モジュールを統合することで、システムの機能性を強化しました。次に、8つの実践的な戦略をPP-StructureV2に採用し、より優れた性能を目指しました。レイアウト分析モデルにおいては、超軽量検出器PP-PicoDetと知識蒸留アルゴリズムFGD（Feature Guidance Distillation）を使用してモデルの軽量化を行いました。これにより推論速度が11倍向上し、mAP（Mean Average Precision）も同等レベルを維持しています。テーブル認識モデルにおいては、バックボーンモジュールの最適化にPP-LCNetを使用し、特徴量融合モジュールの最適化にCSP-PAN（Cross Stage Partial Network）、デコーディングモジュールの最適化にSLAHeadを使用しました。これによりテーブル構造の精度が6%向上し、推論速度も同等レベルを維持しています。主要情報抽出モデルにおいては、視覚特徴に依存しないLayoutXLMアーキテクチャであるVI-LayoutXLMとTB-YXソートアルゴリズムおよびU-DML（Unified Dual-stage Multi-Level）知識蒸留アルゴリズムを導入しました。これらの手法により、意味的エンティティ認識と関係抽出タスクにおけるHmeanがそれぞれ2.8%と9.1%向上しました。上記で述べたすべてのモデルとコードは、GitHubリポジトリPaddleOCRでオープンソースとして公開されています。

ソースPDF