18日前

CREPE:視覚言語基盤モデルは構成的に推論できるか?

Zixian Ma, Jerry Hong, Mustafa Omer Gul, Mona Gandhi, Irena Gao, Ranjay Krishna
CREPE:視覚言語基盤モデルは構成的に推論できるか?
要約

人間の視覚と自然言語の両者に共通する根本的な特徴は、構成性(compositional nature)である。しかし、大規模な視覚および言語の事前学習によって得られた性能向上にもかかわらず、我々は、4つのアルゴリズムを用いて大規模データセット上で訓練された7種類のアーキテクチャにおいて、構成性の処理に困難を抱えていることを発見した。この結論に至るため、認知科学の文献で指摘されている構成性の2つの重要な側面——体系性(systematicity)と生産性(productivity)——を測定できる新しい評価ベンチマーク「CREPE」を導入した。体系性を測定するため、37万を超える画像-テキストペアを含むテストデータセットと、3種類の「既視-未視」分割(seen-unseen splits)を用意した。これらの分割は、CC-12M、YFCC-15M、LAION-400Mの3つの代表的な訓練データセットで学習されたモデルを評価する目的で設計された。さらに、これらのペアのサブセットに対して、それぞれ32.5万、31.6万、30.9万のハードネガティブキャプション(hard negative captions)を生成した。生産性を評価するため、9種類の複雑さを持つ1.7万の画像-テキストペアと、原子的構成、交換、否定を模倣したフォイルを含む18.3万のハードネガティブキャプションを用意した。これらのデータセットは、Visual Genomeのシーングラフと領域記述を再利用し、手動で設計されたテンプレートとGPT-3を用いて生成された。体系性の観点から、新しい組み合わせが検索セットに優勢になると、モデルの性能が一貫して低下し、Recall@1は最大で12%低下した。生産性の観点からは、複雑度が増すにつれてモデルの検索成功確率が低下し、高複雑度ではしばしばランダムな選択とほぼ同等の性能にまで落ち込むことが明らかになった。これらの結果は、モデルのアーキテクチャや訓練データセットの規模に関わらず、一貫して成立する。