16日前
Winoground:視覚言語モデルの視覚言語構成性を検証する
Tristan Thrush, Ryan Jiang, Max Bartolo, Amanpreet Singh, Adina Williams, Douwe Kiela, Candace Ross

要約
視覚と言語モデルが視覚言語的構成的推論(visio-linguistic compositional reasoning)を行う能力を評価するための新しいタスクおよびデータセットを提示する。本研究で提案するこのデータセットは「Winoground」と呼ばれる。2枚の画像と2つのキャプションが与えられるが、その目的はこれらを正しく対応付けることである。ただし、重要な点として、2つのキャプションはまったく同じ語彙を含んでおり、単に語の順序が異なるのみである。このデータセットは専門のアノテーターにより細心の注意をもって手作業で構築され、モデルの性能を分析するための豊富な微細なタグが付与されている。最先端の多様な視覚言語モデルを検証した結果、驚くべきことに、いずれのモデルも偶然のレベル(chance level)を大きく上回る性能を発揮できていないことが明らかになった。これは、現行のモデルが私たちが期待していたほど、視覚言語的構成的推論において優れた能力を有していないことを示している。今後の研究がこれらのモデルの限界を克服するための道筋を得るため、広範な分析を実施した。本研究では、Winogroundが先端技術の進展を促進し、分野全体のさらなる進歩を牽引するための有用な評価セットとして機能することを目指している。データセットは、https://huggingface.co/datasets/facebook/winoground にて公開されている。