17日前

DocXClassifier:ドキュメント画像分類のための高性能で解釈可能な深層ネットワーク

{Sheraz Ahmed, Andreas Dengel, Stefan Agne, Saifullah}
要約

畳み込みニューラルネットワーク(ConvNet)は、ドキュメント画像分類において広く研究されており、単モーダルな画像ベースのドキュメント分類において優れた性能を発揮することが知られている。しかし近年、ドキュメントの視覚的特徴とテキスト的特徴を同時に学習するマルチモーダルアプローチへの関心が急激に高まっている。この傾向は分類分野における顕著な進展をもたらした一方で、純粋なConvNetに基づくアプローチの改善に対する関心が低下する結果を招いている。これは望ましくない。なぜなら、多くのマルチモーダルアプローチが依然としてConvNetを視覚的特徴抽出のバックボーンとして用いているため、ConvNet自体の性能向上がこれらのアプローチ全体の性能向上に不可欠だからである。本論文では、最先端のモデル設計パターンに加え、現代的なデータ拡張法およびトレーニング戦略を組み合わせた、ConvNetベースの新規アプローチ「DocXClassifier」を提案する。本手法は、画像ベースのドキュメント分類において顕著な性能向上を達成するだけでなく、最近提案された一部のマルチモーダルアプローチを上回る結果を示した。さらに、DocXClassifierはトランスフォーマー型の注目マップ(attention maps)を生成可能であり、従来の画像ベース分類モデルには見られない内在的な解釈可能性を備えている。本手法は、代表的なドキュメントデータセットであるRVL-CDIPおよびTobacco3482において、画像ベース分類の新たなパフォーマンスピークを達成した。それぞれトップ-1分類精度は94.17%および95.57%を記録した。特に、RVL-CDIPからの転移学習を用いない状況下で、Tobacco3482において90.14%という画像ベース分類の最高精度を達成し、新たな記録を樹立した。最後に、本研究で提案するモデルは、既存の手法よりも豊かな視覚的特徴を提供するため、今後のマルチモーダルアプローチにおける強力な視覚的バックボーンとして活用可能な可能性を示している。

DocXClassifier:ドキュメント画像分類のための高性能で解釈可能な深層ネットワーク | 最新論文 | HyperAI超神経