HyperAIHyperAI

Command Palette

Search for a command to run...

VisualWordGrid:マルチモーダルアプローチを用いたスキャン文書からの情報抽出

Mohamed Kerroumi Othmane Sayem Aymen Shabou

概要

スキャンされた文書の表現を新たなアプローチで提示し、フィールド抽出を実現する。本手法は、テキスト、視覚的特徴、レイアウト情報を同時に表現できる3軸テンソルを用いて、セグメンテーションモデルへの入力として利用可能である。最近のChargridおよびWordgridモデル\cite{chargrid}を、まず視覚モダリティを考慮する点で改善し、次に小規模なデータセットにおいても高いロバスト性を確保しつつ、推論時間の低さを維持する点で向上を図っている。本アプローチは公開および非公開の文書画像データセットを用いて検証され、最新の最先端手法と比較して優れた性能を示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています