18日前
画像-テキスト-グラフ空間における粗視野から細視野への対照学習によるビジョン・ランゲージ合成性の向上
Harman Singh, Pengchuan Zhang, Qifan Wang, Mengjiao Wang, Wenhan Xiong, Jingfei Du, Yu Chen

要約
対照学習によって訓練された視覚・言語モデルは、視覚と言語の表現学習において顕著な進展を遂げており、さまざまな下流のマルチモーダルタスクにおいて最先端のモデルを実現している。しかし、近年の研究では、これらのモデルが物体、属性、関係に関する構成的推論を行う能力に深刻な限界があることが指摘されている。シーングラフは、画像の構成的理解を実現する有効な手段として注目されている。シーングラフとは、画像内の物体、その属性、および他の物体との関係をグラフ構造で表現した意味的表現であり、シーン全体の構造的理解を可能にする。本研究では、テキストから解析されたシーングラフを画像のシーングラフの代理として取り扱い、画像とテキスト間で多様な複雑度を持つ文を同一画像に整合させる「粗いから細かいへ」という対照学習目標を採用した、グラフ分解と拡張フレームワークを提案する。さらに、属性の束縛や関係の理解を向上させるために、シーングラフ空間における新たなネガティブマイニング手法を導入した。広範な実験を通じて、本手法が属性の束縛、関係理解、体系的一般化、生産性の面で、最近提案された複数のベンチマークにおいて顕著な性能向上を示すことを実証した(たとえば、体系的一般化において強力なベースライン比で最大18%の向上、関係理解において16.5%の向上)。また、一般マルチモーダルタスクにおいてはCLIPと同等またはそれ以上の性能を達成している。