6ヶ月前

マルチモーダル

自然言語処理

自然言語処理

マルチモーダル

コンピュータビジョン

Fangyu Liu Guy Emerson Nigel Collier

概要

空間的関係性は人間の認知において基本的な要素である。しかし、自然言語では多様な方法で表現され、これまでの研究では、現在の視覚言語モデル（VLM）が関係性情報を十分に捉えることが難しいことが示唆されている。本論文では、英語で66種類の空間的関係性（例：under、in front of、facingなど）を含む、1万件を超える自然なテキスト・画像ペアを備えたデータセット「Visual Spatial Reasoning（VSR）」を提示する。一見単純なアノテーション形式を採用しているが、我々はこのデータセットが、参照枠の変化といった挑戦的な言語現象を含んでいることを示す。人間とモデルのパフォーマンスの間に顕著なギャップがあることを実証した。人間の上限性能は95％を上回るが、最先端モデルの性能は約70％にとどまる。さらに、VLMの各関係性に対する性能は、訓練データの数とほとんど相関がなく、特に物体の方向性に関わる関係性を認識する能力が一般的に欠けていることを観察した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

自然言語処理

自然言語処理

マルチモーダル

コンピュータビジョン

Fangyu Liu Guy Emerson Nigel Collier

概要

空間的関係性は人間の認知において基本的な要素である。しかし、自然言語では多様な方法で表現され、これまでの研究では、現在の視覚言語モデル（VLM）が関係性情報を十分に捉えることが難しいことが示唆されている。本論文では、英語で66種類の空間的関係性（例：under、in front of、facingなど）を含む、1万件を超える自然なテキスト・画像ペアを備えたデータセット「Visual Spatial Reasoning（VSR）」を提示する。一見単純なアノテーション形式を採用しているが、我々はこのデータセットが、参照枠の変化といった挑戦的な言語現象を含んでいることを示す。人間とモデルのパフォーマンスの間に顕著なギャップがあることを実証した。人間の上限性能は95％を上回るが、最先端モデルの性能は約70％にとどまる。さらに、VLMの各関係性に対する性能は、訓練データの数とほとんど相関がなく、特に物体の方向性に関わる関係性を認識する能力が一般的に欠けていることを観察した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

視覚空間的推論 | 記事 | HyperAI超神経