HyperAIHyperAI

Command Palette

Search for a command to run...

COREVQA:クラウド観察と推論包含を備えた視覚質問応答ベンチマーク

Ishant Chintapatla Kazuma Choji Naaisha Agarwal Andrew Lin Hannah You Charles Duong et al

概要

近年、視覚言語モデル(VLMs)の評価を目的として、視覚的質問応答(VQA)ペアを用いた多数のベンチマークおよびデータセットが開発され、モデルの精度は顕著な向上を遂げている。しかし、これらのベンチマークは、画像に基づいて仮説を受容または否定するといった、視覚的含意(visual entailment)を正確に遂行する能力をほとんど検証していない。この課題に対応するため、我々は「COREVQA(Crowd Observations and Reasoning Entailment)」を提案する。COREVQAは、CrowdHumanデータセットから抽出した画像を用いて、合成的に生成された真・偽の文のペア(5,608件)から構成されるベンチマークであり、混雑した画像における視覚的含意推論を促すことを目的としている。実験結果から、最も高性能なVLMですら正解率が80%を下回り、他のモデルではさらに著しく低い性能(39.98%~69.95%)が示された。この顕著な性能差は、VLMが混雑したシーンにおける特定の種類の画像-質問ペアに対して推論を行う能力に根本的な限界を有していることを示している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています