テキスト・イメージ検索(Text-to-Image Retrieval, T2I)とは、キーワードクエリに該当するすべての画像を回復するタスクを指す。Flickr30k、VG、MS-COCOといった代表的なT2Iデータセットは、画像に付与されたアノテーションキャプション(例:「男が子供と遊んでいる」)をクエリの代用として用いている。このような代替クエリを用いることで、CLIPやBLIPといった現在のマルチモーダル機械学習モデルは優れた性能を発揮している。その主な理由は、キャプションが画像の内容を詳細に記述している点にある。しかし、T2Iのクエリは画像・キャプションペアに含まれる記述的な内容を単に超えるものである。したがって、これらのデータセットは「家族のバケーション」のようなより抽象的または概念的なクエリを検証するには不適切である。このようなクエリでは、画像の内容が明示的に記述されているのではなく、暗に示されている。本研究では、記述的クエリに対するT2Iの結果を再現し、それを概念的クエリに拡張する。そのために、概念的クエリの回答を目的とした新たなT2Iベンチマーク「ConQA」を用いて新たな実験を行った。ConQAは、43,000枚の画像上に30の記述的クエリと50の概念的クエリを設定し、各クエリに対して100枚以上の手動アノテーションが施された画像を含んでいる。既存の評価指標に基づく実験結果から、大規模な事前学習モデル(CLIP、BLIP、BLIP2など)および小規模モデル(SGRAF、NAAFなど)が、記述的クエリに対して概念的クエリよりも最大4倍高い性能を示すことが明らかになった。また、MS-COCOのキャプションと同様に6語以上のキーワードを含むクエリに対して、モデルの性能がより高いことも確認された。