11日前
視覚言語基盤モデルにおける等価類似性
Tan Wang, Kevin Lin, Linjie Li, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang

要約
本研究は、視覚・言語基盤モデル(VLMs)における等変性(equivariance)の概念に焦点を当て、特にマルチモーダル類似性関数について考察する。この関数は、訓練の主要な目的であると同時に、下流タスクを支援する核心的な機能でもある。従来の画像・テキスト類似性評価では、一致するペアを類似とし、不一致のペアを非類似と分類するのみであるが、等変性は、意味的変化に応じて類似性が忠実に変化することを要求する。これにより、VLMはより微細かつ未観測のマルチモーダル構成に対しても良好な一般化が可能となる。しかしながら、意味的変化の真のラベル(ground truth)を収集することは困難であるため、等変性のモデリングは課題である。たとえば、犬に関する画像・テキストペアに対して、ピクセルが「犬」から「猫」に変更された場合、類似性がどの程度変化するかは明確ではない。こうした課題に対応するため、本研究では、任意の2つの一致する訓練ペアから効率的に計算可能な正則化損失であるEqSimを提案する。この手法は、既存の画像・テキスト検索のファインチューニングプロセスに容易に組み込むことができる。さらに、VLMの等変性をより深く診断するため、新たな挑戦的なベンチマークであるEqBenを提案する。既存の評価セットと比較して、EqBenは「視覚的最小変化」に初めて焦点を当てたものである。広範な実験により、現在のVLMには等変性の欠如が見られ、EqSimの有効性が検証された。コードは以下のURLから入手可能である:https://github.com/Wangt-CN/EqBen。