Command Palette
Search for a command to run...
誤差を半分に削減:文書画像分類における非常に深いCNNと先進的な学習戦略の調査
誤差を半分に削減:文書画像分類における非常に深いCNNと先進的な学習戦略の調査
Muhammad Zeshan Afzal; Andreas Kölsch; Sheraz Ahmed; Marcus Liwicki
概要
私たちは、ドキュメント画像分類のタスクにおいて誤差を半分以上に削減するための最近のディープラーニングアーキテクチャ、アルゴリズム、および戦略について包括的な調査を行いました。既存のアプローチ(例:DeepDocClassifier)では、物体認識領域からの転移学習を用いた標準的な畳み込みニューラルネットワークアーキテクチャが適用されています。本論文の貢献は三つあります。第一に、最近導入された非常に深いニューラルネットワークアーキテクチャ(GoogLeNet, VGG, ResNet)を実際の画像からの転移学習を使用して調査しています。第二に、40万件のドキュメント画像という大規模なデータセットから転移学習を行う手法を提案しています。第三に、訓練データ(ドキュメント画像)の量やその他のパラメータが分類能力に与える影響を分析しています。本研究では、Tobacco-3482と大規模なRVL-CDIPデータセットの2つのデータセットを使用しました。Tobacco-3482データセットに対して91.13%の精度を達成し、以前のアプローチでは77.6%しか達成できなかったため、相対的な誤差削減率が60%以上となりました。また、大規模なRVL-CDIPデータセットに対しては90.97%の精度を達成し、これは相対的な誤差削減率11.5%に相当します。