2ヶ月前
VALSE: 言語現象を中心とした視覚と言語モデルのタスクに依存しないベンチマーク
Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt

要約
私たちは、特定の言語現象に対する視覚言語(V&L)モデルの接地能力をテストするために設計された新しいベンチマーク、VALSE(Vision And Language Structured Evaluation:視覚と言語の構造化評価)を提案します。VALSEは、さまざまな言語構造をカバーする6つのテストからなるスイートを提供しており、これらのテストを解くにはモデルが言語現象を視覚モダリティに接地させる必要があります。これにより、これまでに不可能であったより詳細な評価が可能になります。私たちは、有効な疑似データ(foils)の構築を支援する方法を使用してVALSEを作成し、5つの広く使用されているV&Lモデルの評価結果を報告します。実験結果は、現在のモデルがほとんどの現象に対処することが非常に困難であることを示唆しています。したがって、私たちはVALSEが、言語的観点から事前学習済みV&Lモデルの今後の進歩を測定する重要なベンチマークとして機能することを期待しています。これは、従来のタスク中心的なV&L評価を補完するものとなるでしょう。