16日前

並列システムを活用した文書画像分類の精度向上と高速化

Javier Ferrando, Juan Luis Dominguez, Jordi Torres, Raul Garcia, David Garcia, Daniel Garrido, Jordi Cortada, Mateo Valero
並列システムを活用した文書画像分類の精度向上と高速化
要約

本稿では、機関のデジタル化プロセスにおいて重要な課題である文書分類タスクにおいて、より重い畳み込みニューラルネットワーク(CNN)と比較してEfficientNetモデルがもたらす利点について検証する研究を提示する。RVL-CDIPデータセット上での実験により、より軽量なモデルを用いることで従来の成果を上回ることを示し、Tobacco3482のような小規模なドメイン固有データセットにおいても転移学習の有効性を確認した。さらに、OCRによって抽出したテキストをBERTモデルで処理した結果と、画像モデルの予測を統合するアンサンブルパイプラインを提案し、画像入力のみに依存するアプローチを大幅に向上させることを示した。また、バッチサイズを拡大しても精度を損なわず、複数のGPUを活用した並列化により学習プロセスを高速化でき、計算時間の短縮が可能であることを明らかにした。最後に、PyTorchとTensorFlowという2つのディープラーニングフレームワークにおける学習性能の差異についても検証した。

並列システムを活用した文書画像分類の精度向上と高速化 | 最新論文 | HyperAI超神経