2ヶ月前

DocLayout-YOLO: 多様な合成データとグローバルからローカルへの適応的知覚を用いた文書レイアウト分析の向上

Zhiyuan Zhao, Hengrui Kang, Bin Wang, Conghui He
DocLayout-YOLO: 多様な合成データとグローバルからローカルへの適応的知覚を用いた文書レイアウト分析の向上
要約

ドキュメントレイアウト分析は、実世界のドキュメント理解システムにおいて重要な役割を果たしますが、速度と精度の間で難しいトレードオフに直面しています。多モーダル手法はテキストと視覚的な特徴を活用することで高い精度を達成しますが、大幅な遅延が発生するという問題があります。一方、単一モーダル手法は視覚的な特徴のみに依存することで高速な処理速度を提供しますが、精度が犠牲になります。このジレンマに対処するために、私たちはDocLayout-YOLOという新しいアプローチを提案します。この方法は、事前学習とモデル設計におけるドキュメント固有の最適化を通じて、精度向上と高速性の両立を目指しています。堅牢なドキュメント事前学習のために、私たちはメッシュ候補ベストフィット(Mesh-candidate BestFit)アルゴリズムを導入しました。このアルゴリズムはドキュメント合成を2次元ビンパッキング問題として捉え、大規模かつ多様なDocSynth-300Kデータセットを生成します。DocSynth-300Kデータセットでの事前学習は、様々なドキュメントタイプに対する微調整性能を大幅に向上させます。モデル最適化に関しては、グローバルからローカルまで制御可能な受容モジュール(Global-to-Local Controllable Receptive Module)を提案します。このモジュールはドキュメント要素の多スケール変動をより効果的に扱うことができます。さらに、異なるドキュメントタイプにおける性能検証のために複雑で挑戦的なベンチマークであるDocStructBenchを導入しました。下流データセットでの広範な実験により、DocLayout-YOLOが速度と精度の両面で優れていることが示されています。コード、データセット、およびモデルは https://github.com/opendatalab/DocLayout-YOLO から入手可能です。

DocLayout-YOLO: 多様な合成データとグローバルからローカルへの適応的知覚を用いた文書レイアウト分析の向上 | 最新論文 | HyperAI超神経