2ヶ月前

オープンエンド型VQAベンチマークを分類データセットとその意味階層を活用して行うビジョン-言語モデルの評価

Ging, Simon ; Bravo, María A. ; Brox, Thomas
オープンエンド型VQAベンチマークを分類データセットとその意味階層を活用して行うビジョン-言語モデルの評価
要約

テキスト生成ビジョン言語モデルの評価は、挑戦的でありながら重要な課題です。既存のビジュアル質問応答(VQA)ベンチマークの制限を解決し、革新的な評価手法を提案することで、当研究はこれらのモデルの能力に対する理解を深めることを目指しています。私たちは、有名な視覚分類データセットに基づく新しいVQAベンチマークを提案します。これにより、テキスト生成ビジョン言語モデルの詳細な評価と、識別型ビジョン言語モデルとの比較が可能になります。微細分類タスクにおける粗い回答の評価を改善するために、ラベル空間の意味階層を使用して自動的に追加質問を生成することを提唱します。最後に、モデル予測の評価問題について、真実値回答が与えられた場合の従来のNLP指標とLLMベースの指標を比較します。ヒューマン評価研究を行い、その結果に基づいて最終的な指標を選定しました。私たちはこのベンチマークを一連のビジョン言語モデルに適用し、物体、動作、属性分類における各モデルの能力に関する詳細な比較を行いました。私たちの貢献は、より正確で意味のある評価を行う基盤を作り、ビジョン言語モデリングという魅力的な分野での対象的な進歩を促進することを目指しています。

オープンエンド型VQAベンチマークを分類データセットとその意味階層を活用して行うビジョン-言語モデルの評価 | 最新論文 | HyperAI超神経