6ヶ月前

概要

近年、複雑な深層ニューラルネットワークは、ドキュメント画像分類やドキュメント検索など、さまざまなドキュメント理解タスクにおいて大きな注目を集めている。多くのドキュメント形式は特徴的な視覚的スタイルを持つため、深層CNNを用いてドキュメント画像の分類を行う際に、視覚特徴のみを学習すると、クラス間の識別能が低く、クラス内での構造的変動が大きくなるという問題に直面している。これに対し、ドキュメント画像内の視覚的特徴と対応するテキストレベルの理解を統合的に学習することで、分類精度の向上が顕著に実現されている。本論文では、アンサンブル学習可能なネットワークの構成ブロックとして、自己注意（self-attention）に基づく特徴融合モジュールを設計した。このモジュールにより、学習段階全体を通じて画像モダリティとテキストモダリティの識別的特徴を同時に学習することが可能となる。さらに、学習段階において画像モダリティとテキストモダリティの間でポジティブな知識を相互に伝達する相互学習（mutual learning）を促進する。この制約は、従来の教師あり学習設定に新たな正則化項として、切断型Kullback-Leibler（KLD）ダイバージェンス損失（Tr-KLD-Reg）を導入することで実現している。本研究の知見によれば、本手法は、自己注意に基づく融合モジュールと相互学習アプローチを組み合わせてドキュメント画像分類を行う初めての試みである。実験結果から、単モダリティおよびマルチモダリティの両面において、本手法の精度向上の有効性が示された。したがって、提案するアンサンブル型自己注意ベースの相互学習モデルは、ベンチマークデータセットであるRVL-CDIPおよびTobacco-3482に基づく、最先端の分類結果を上回っている。

ソースPDF