HyperAIHyperAI

Command Palette

Search for a command to run...

Console

GenEval 2:テキストから画像評価におけるベンチマークのずれに対処する

Amita Kamath Kai-Wei Chang Ranjay Krishna Luke Zettlemoyer Yushi Hu Marjan Ghazvininejad

Abstract

テキストから画像(T2I)モデルの評価を自動化することは困難である。正しさのスコアリングには「Judgeモデル」(審査モデル)を用いる必要があり、テスト用プロンプトも、現行のT2Iモデルにとって挑戦的であるが、Judgeモデルには容易すぎないものでなければならない。本研究では、こうした制約を満たすことで、時間の経過とともにベンチマークの「ドリフト(偏移)」が生じる可能性があると主張する。すなわち、静的であるベンチマークの審査モデルが、進化する新規T2Iモデルの能力に追いつかなくなる現象である。本研究では、最も広く使われているT2Iベンチマークの一つであるGenEvalにおいて、このドリフトが顕著な問題であることを示す。GenEvalはリリース当時は人間の判断と良好に一致していたが、時間の経過とともに人間の判断から大きく逸脱しており、現在のモデルにおいては最大で17.7%の絶対誤差が生じている。この程度のドリフトは、GenEvalが長期間にわたり飽和状態にあることを強く示唆しており、大規模な人間による検証研究によってその妥当性を裏付けた。こうしたベンチマークのギャップを埋めるため、本研究では、基本的な視覚的概念のカバー範囲を拡充し、構成性(compositionality)の度合いを高めた新しいベンチマーク「GenEval 2」を提案する。本研究では、現行モデルにとってより困難な課題を提供することを示した。また、GenEval 2用の評価手法として「Soft-TIFA」を導入し、視覚的プリミティブ(基本的視覚概念)の判断を統合するアプローチを採用した。本手法は、人間の判断とより良好に一致しており、VQAScoreのような包括的(ホリスティック)なJudgeモデルと比較して、人間の判断との整合性が時間の経過とともに崩れにくいと主張する。本研究では、GenEval 2が数年間、強力なベンチマークとして機能することを期待するが、ドリフトの回避は確実ではない。本研究の意義は、より広くT2Iモデルや関連する自動評価ベンチマークの継続的な監査と改善の重要性を浮き彫りにしている点にある。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています