11日前
VisualWordGrid:マルチモーダルアプローチを用いたスキャン文書からの情報抽出
Mohamed Kerroumi, Othmane Sayem, Aymen Shabou

要約
スキャンされた文書の表現を新たなアプローチで提示し、フィールド抽出を実現する。本手法は、テキスト、視覚的特徴、レイアウト情報を同時に表現できる3軸テンソルを用いて、セグメンテーションモデルへの入力として利用可能である。最近のChargridおよびWordgridモデル\cite{chargrid}を、まず視覚モダリティを考慮する点で改善し、次に小規模なデータセットにおいても高いロバスト性を確保しつつ、推論時間の低さを維持する点で向上を図っている。本アプローチは公開および非公開の文書画像データセットを用いて検証され、最新の最先端手法と比較して優れた性能を示した。