
視覚情報抽出(VIE)はドキュメントインテリジェンスにおいて重要な役割を果たしています。一般的に、VIEは2つのタスクに分類されます:意味的エンティティ認識(SER)と関係抽出(RE)。最近、ドキュメント用の事前学習モデルがVIE、特にSERにおいて著しい進歩を遂げています。しかし、既存のほとんどのモデルは幾何学的表現を暗黙的に学習しており、これは幾何学的情報がREにとって特に重要であるため、REタスクには不十分であることが示されています。さらに、REの性能を制限するもう1つの要因として、事前学習フェーズと微調整フェーズにおける目的関数のギャップがあることを明らかにしました。これらの問題に対処するために、本論文ではVIE用のマルチモーダルフレームワークであるGeoLayoutLMを提案します。GeoLayoutLMは事前学習段階で幾何学的関係を明示的にモデル化し、これを「幾何学的事前学習」と呼びます。幾何学的事前学習は3つの特別に設計された幾何学に関連した事前学習タスクによって達成されます。さらに、新しい関係ヘッドが幾何学的事前学習タスクで事前学習され、REのために微調整されるように巧妙に設計されており、特徴表現を豊かにし強化します。標準的なVIEベンチマークでの広範な実験によると、GeoLayoutLMはSERタスクで非常に競争力のあるスコアを達成し、REでは従来の最先端技術よりも大幅に優れたパフォーマンスを発揮しています(例えば、FUNSDでのREのF1スコアは80.35%から89.45%へと向上しました)。コードとモデルは公開されており、以下のURLからアクセスできます:https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/GeoLayoutLM