8ヶ月前

視覚質問応答

ベンチマーク

AIインフラストラクチャ

マルチモーダル

コンピュータビジョン

Simon Ging María A. Bravo Thomas Brox

概要

テキスト生成ビジョン言語モデルの評価は、挑戦的でありながら重要な課題です。既存のビジュアル質問応答（VQA）ベンチマークの制限を解決し、革新的な評価手法を提案することで、当研究はこれらのモデルの能力に対する理解を深めることを目指しています。私たちは、有名な視覚分類データセットに基づく新しいVQAベンチマークを提案します。これにより、テキスト生成ビジョン言語モデルの詳細な評価と、識別型ビジョン言語モデルとの比較が可能になります。微細分類タスクにおける粗い回答の評価を改善するために、ラベル空間の意味階層を使用して自動的に追加質問を生成することを提唱します。最後に、モデル予測の評価問題について、真実値回答が与えられた場合の従来のNLP指標とLLMベースの指標を比較します。ヒューマン評価研究を行い、その結果に基づいて最終的な指標を選定しました。私たちはこのベンチマークを一連のビジョン言語モデルに適用し、物体、動作、属性分類における各モデルの能力に関する詳細な比較を行いました。私たちの貢献は、より正確で意味のある評価を行う基盤を作り、ビジョン言語モデリングという魅力的な分野での対象的な進歩を促進することを目指しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

視覚質問応答

ベンチマーク

AIインフラストラクチャ

マルチモーダル

コンピュータビジョン

Simon Ging María A. Bravo Thomas Brox

概要

テキスト生成ビジョン言語モデルの評価は、挑戦的でありながら重要な課題です。既存のビジュアル質問応答（VQA）ベンチマークの制限を解決し、革新的な評価手法を提案することで、当研究はこれらのモデルの能力に対する理解を深めることを目指しています。私たちは、有名な視覚分類データセットに基づく新しいVQAベンチマークを提案します。これにより、テキスト生成ビジョン言語モデルの詳細な評価と、識別型ビジョン言語モデルとの比較が可能になります。微細分類タスクにおける粗い回答の評価を改善するために、ラベル空間の意味階層を使用して自動的に追加質問を生成することを提唱します。最後に、モデル予測の評価問題について、真実値回答が与えられた場合の従来のNLP指標とLLMベースの指標を比較します。ヒューマン評価研究を行い、その結果に基づいて最終的な指標を選定しました。私たちはこのベンチマークを一連のビジョン言語モデルに適用し、物体、動作、属性分類における各モデルの能力に関する詳細な比較を行いました。私たちの貢献は、より正確で意味のある評価を行う基盤を作り、ビジョン言語モデリングという魅力的な分野での対象的な進歩を促進することを目指しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

オープンエンド型VQAベンチマークを分類データセットとその意味階層を活用して行うビジョン-言語モデルの評価 | 記事 | HyperAI超神経