8ヶ月前

ベンチマーク

視覚質問応答

ドキュメント理解

AIインフラストラクチャ

自然言語処理

マルチモーダル

Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt

概要

私たちは、特定の言語現象に対する視覚言語（V＆L）モデルの接地能力をテストするために設計された新しいベンチマーク、VALSE（Vision And Language Structured Evaluation：視覚と言語の構造化評価）を提案します。VALSEは、さまざまな言語構造をカバーする6つのテストからなるスイートを提供しており、これらのテストを解くにはモデルが言語現象を視覚モダリティに接地させる必要があります。これにより、これまでに不可能であったより詳細な評価が可能になります。私たちは、有効な疑似データ（foils）の構築を支援する方法を使用してVALSEを作成し、5つの広く使用されているV＆Lモデルの評価結果を報告します。実験結果は、現在のモデルがほとんどの現象に対処することが非常に困難であることを示唆しています。したがって、私たちはVALSEが、言語的観点から事前学習済みV＆Lモデルの今後の進歩を測定する重要なベンチマークとして機能することを期待しています。これは、従来のタスク中心的なV＆L評価を補完するものとなるでしょう。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ベンチマーク

視覚質問応答

ドキュメント理解

AIインフラストラクチャ

自然言語処理

マルチモーダル

Letitia Parcalabescu; Michele Cafagna; Lilitta Muradjan; Anette Frank; Iacer Calixto; Albert Gatt

概要

私たちは、特定の言語現象に対する視覚言語（V＆L）モデルの接地能力をテストするために設計された新しいベンチマーク、VALSE（Vision And Language Structured Evaluation：視覚と言語の構造化評価）を提案します。VALSEは、さまざまな言語構造をカバーする6つのテストからなるスイートを提供しており、これらのテストを解くにはモデルが言語現象を視覚モダリティに接地させる必要があります。これにより、これまでに不可能であったより詳細な評価が可能になります。私たちは、有効な疑似データ（foils）の構築を支援する方法を使用してVALSEを作成し、5つの広く使用されているV＆Lモデルの評価結果を報告します。実験結果は、現在のモデルがほとんどの現象に対処することが非常に困難であることを示唆しています。したがって、私たちはVALSEが、言語的観点から事前学習済みV＆Lモデルの今後の進歩を測定する重要なベンチマークとして機能することを期待しています。これは、従来のタスク中心的なV＆L評価を補完するものとなるでしょう。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています