3ヶ月前
ドキュメント画像分類のための視覚的・テキスト的ディープ特徴の融合
{Marçal Rusiñol, Mickael Coustaty, Ziheng Ming, Souhail Bakkali}

要約
近年、テキストを含むドキュメント画像の分類に関する研究が広く行われてきた。最近の多くのアプローチは、ドキュメント画像の視覚的特徴とその対応するテキスト内容の両方を統合的に学習することでこのタスクに取り組んでいる。ドキュメント画像には多様な構造が存在するため、テキストコンテンツから意味情報を抽出することは、ドキュメント検索、情報抽出、テキスト分類といったドキュメント画像処理タスクにおいて有効である。本研究では、ドキュメント画像分類を実現するための二本のストリーム(two-stream)ニューラルアーキテクチャを提案する。さらに、現在広く用いられているニューラルネットワークおよび単語埋め込み(word embedding)手法を体系的に調査し、ドキュメント画像から視覚的特徴とテキスト的特徴を効果的に抽出することを目的とする。また、画像特徴とテキスト埋め込みを統合する共同特徴学習アプローチを、後段融合(late fusion)の手法として導入している。理論的解析および実験結果の両面から、本研究で提案する共同特徴学習法が単一モダリティの手法に比べて優れていることが示された。この共同学習アプローチは、大規模なRVL-CDIPデータセットにおいて97.05%の分類精度を達成し、既存の最先端手法を上回る結果を示した。