3ヶ月前
GlobalDoc:現実世界のドキュメント画像検索および分類を目的としたクロスモーダル視覚言語フレームワーク
Souhail Bakkali, Sanket Biswas, Zuheng Ming, Mickaël Coustaty, Marçal Rusiñol, Oriol Ramos Terrades, Josep Lladós

要約
視覚文書理解(Visual Document Understanding, VDU)は、強力なマルチモーダル言語モデルの発展に伴い急速に進展している。しかし、これらのモデルは通常、中間表現を学習するために膨大なドキュメント事前学習データを必要とし、実際のオンライン産業環境においては性能が著しく低下する傾向がある。主な課題の一つは、ドキュメントページ内の局所的位置情報を抽出するためにOCRエンジンに強く依存している点であり、これによりモデルがグローバルな情報を十分に捉える能力が制限され、汎化性・柔軟性・堅牢性の面で制約を受ける。本論文では、自己教師学習形式で3つの新規事前学習タスクを用いて事前学習された、クロスモーダルTransformerベースのアーキテクチャであるGlobalDocを提案する。GlobalDocは、言語表現と視覚表現を統合することで、より豊かな意味的コンセプトの学習を促進し、より転移可能なモデルの構築を実現する。適切な評価を実施するため、産業現場の状況をより正確に再現することを目的として、2つの新規ドキュメントレベルの下流タスク、すなわち少数サンプルドキュメント画像分類(Few-Shot Document Image Classification, DIC)とコンテンツベースドキュメント画像検索(Content-based Document Image Retrieval, DIR)を提案する。広範な実験により、GlobalDocが実用的環境下での有効性を十分に示している。