HyperAIHyperAI

Command Palette

Search for a command to run...

VLCDoC:マルチモーダルドキュメント分類のための視覚言語対照事前学習モデル

Souhail Bakkali Zuheng Ming Mickael Coustaty Marçal Rusiñol Oriol Ramos Terrades

概要

最近、ドキュメントデータからのマルチモーダル学習は、意味的に意味のある特徴を事前学習し、学習可能な下流タスクに事前知識として組み込むことができる点から、大きな成功を収めている。本論文では、言語と視覚の手がかりを用いて、モダリティ内およびモダリティ間の関係性を考慮しつつ、クロスモーダル表現を学習することで、ドキュメント分類問題にアプローチする。異なるモダリティの特徴を統合表現空間にマージするのではなく、本手法は高次元の相互作用に着目し、モダリティ内およびモダリティ間の有効なアテンションフローから関連する意味情報を学習する。提案する学習目的は、モダリティ内およびモダリティ間のアライメントタスクの間に設計されており、それぞれのタスクにおける類似度分布は、統合表現空間内で正例ペアを縮小(コントラクト)しつつ、負例ペアを同時に対比することで計算される。公開されているドキュメント分類データセットにおける広範な実験により、本モデルが低スケールおよび大規模なデータセットの両方において有効性と汎用性を示していることが確認された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
VLCDoC:マルチモーダルドキュメント分類のための視覚言語対照事前学習モデル | 記事 | HyperAI超神経