16日前

領域ベースグラフニューラルネットワークを用いた効率的なドキュメント画像分類

Jaya Krishna Mandivarapu, Eric Bunch, Qian You, Glenn Fung
領域ベースグラフニューラルネットワークを用いた効率的なドキュメント画像分類
要約

ドキュメント画像分類は、異なる業界における企業向けアプリケーションへの商業化が可能であるため、依然として注目される研究分野の一つである。近年、大規模事前学習済みのコンピュータビジョンモデルおよび言語モデル、さらにはグラフニューラルネットワーク(GNN)の進展により、ドキュメント画像分類には多様なツールが提供されるようになった。しかし、大規模事前学習モデルを用いる場合、通常は膨大な計算リソースを要するため、自動ドキュメント画像分類によるコスト削減の利点が相殺されるリスクがある。本論文では、ドキュメントのテキスト情報、視覚的特徴、レイアウト構造を統合するグラフ畳み込みニューラルネットワーク(GCN)を活用した、効率的なドキュメント画像分類フレームワークを提案する。我々は、公開データセットおよび実際の保険書類分類を対象とした実データセットの両方において、複数の最先端の視覚・言語モデルと厳密なベンチマーク比較を行った。公開データセットおよび実世界データにおける実証結果から、本手法はSOTA(State-of-the-Art)に非常に近い性能を達成しつつ、モデル学習および推論にかかる計算リソースと時間の大幅な削減を実現していることが示された。これにより、特に企業向けアプリケーションにおけるスケーラブルな展開において、より優れたコストパフォーマンスを提供するソリューションが可能となった。結果として、本アルゴリズムはSOTA水準に非常に近い分類性能を達成できることを確認した。さらに、提案手法とベースラインとの間で、計算リソースの消費量、モデルサイズ、学習時間および推論時間について包括的な比較を実施し、その差異を明確に示した。また、本手法および他のベースラインにおける1枚あたりの処理コストについても詳細に分析し、経済的効率性の優位性を実証した。

領域ベースグラフニューラルネットワークを用いた効率的なドキュメント画像分類 | 最新論文 | HyperAI超神経