15日前

ViSTA:クロスモーダル検索を 위한視覚およびシーンテキストの集約

Mengjun Cheng, Yipeng Sun, Longchao Wang, Xiongwei Zhu, Kun Yao, Jie Chen, Guoli Song, Junyu Han, Jingtuo Liu, Errui Ding, Jingdong Wang
ViSTA:クロスモーダル検索を 위한視覚およびシーンテキストの集約
要約

視覚的外観は、クロスモーダル検索において画像を理解する上で最も重要な手がかりとされる一方で、画像内に含まれるシーンテキスト(scene text)は、視覚的意味を理解する上で貴重な情報を提供することがある。既存の多くのクロスモーダル検索手法は、シーンテキスト情報の活用を無視しており、単純にこの情報を追加すると、シーンテキストを含まない状況では性能の低下を引き起こす可能性がある。この問題に対処するため、本研究では単一の「Vision and Scene Text Aggregation(ViSTA)」フレームワーク内に、シーンテキストを含む状況と含まない状況を統一的に扱うためのフルトランスフォーマー構造を提案する。具体的には、ViSTAはトランスフォーマーブロックを用いて画像パッチを直接符号化し、シーンテキストの埋め込み情報を融合することで、クロスモーダル検索に適した統合的視覚表現を学習する。シーンテキストの欠落問題に対処するため、融合トークン(fusion token)に基づく新たな融合アプローチを提案し、必要最小限のシーンテキスト情報を融合トークンを介して交換することで、各モダリティにおける最も重要な特徴に集中する。さらに視覚モダリティの強化を図るため、画像-テキストペアおよび融合-テキストペアの両方を共通のクロスモーダル空間に埋め込むための二重対照学習損失(dual contrastive learning losses)を導入する。従来手法と比較して、ViSTAは視覚的外観と関連するシーンテキストの意味情報を効果的に統合でき、シーンテキストを含む状況と含まない状況の両方で検索性能を向上させる。実験結果によれば、ViSTAはシーンテキストを意識する検索タスクにおいて、Recall@1で他の手法と比較して少なくとも8.4%の向上を達成した。また、最先端のシーンテキスト非含む検索手法と比較して、Flicker30KおよびMSCOCOのデータセットにおいてより高い精度を達成しつつ、推論段階では少なくとも3倍の高速化を実現した。これにより、提案フレームワークの有効性が実証された。

ViSTA:クロスモーダル検索を 위한視覚およびシーンテキストの集約 | 最新論文 | HyperAI超神経