15日前
VLCDoC:マルチモーダルドキュメント分類のための視覚言語対照事前学習モデル
Souhail Bakkali, Zuheng Ming, Mickael Coustaty, Marçal Rusiñol, Oriol Ramos Terrades

要約
最近、ドキュメントデータからのマルチモーダル学習は、意味的に意味のある特徴を事前学習し、学習可能な下流タスクに事前知識として組み込むことができる点から、大きな成功を収めている。本論文では、言語と視覚の手がかりを用いて、モダリティ内およびモダリティ間の関係性を考慮しつつ、クロスモーダル表現を学習することで、ドキュメント分類問題にアプローチする。異なるモダリティの特徴を統合表現空間にマージするのではなく、本手法は高次元の相互作用に着目し、モダリティ内およびモダリティ間の有効なアテンションフローから関連する意味情報を学習する。提案する学習目的は、モダリティ内およびモダリティ間のアライメントタスクの間に設計されており、それぞれのタスクにおける類似度分布は、統合表現空間内で正例ペアを縮小(コントラクト)しつつ、負例ペアを同時に対比することで計算される。公開されているドキュメント分類データセットにおける広範な実験により、本モデルが低スケールおよび大規模なデータセットの両方において有効性と汎用性を示していることが確認された。