2ヶ月前

ドキュメント画像分類のための畳み込みニューラルネットワークの分析

Chris Tensmeyer; Tony Martinez
ドキュメント画像分類のための畳み込みニューラルネットワークの分析
要約

畳み込みニューラルネットワーク(CNNs)は、文書画像分類タスクにおいて最先端のモデルです。しかし、これらの手法の多くは自然画像の分類に設計されたパラメータとアーキテクチャに依存しており、これは文書画像とは異なる特性を持っています。私たちはこれが適切かどうかを疑問視し、大規模な実証研究を行って文書画像の分類性能に最も影響を与えるCNNの側面を見つけ出しました。その結果として、シアー変換データ拡張と大きな入力画像用に設計されたアーキテクチャを使用することで、RVL-CDIPデータセットでの最先端の性能を上回ることに成功しました。さらに、学習された特徴量を分析し、RVL-CDIPで訓練されたCNNが領域固有のレイアウト特徴量を学習していることを示す証拠を見いだしました。

ドキュメント画像分類のための畳み込みニューラルネットワークの分析 | 最新論文 | HyperAI超神経