Command Palette
Search for a command to run...

要約
近年、多モーダル生成モデルの進展により、画像編集の性能は著しく向上している。しかし、現在の生成モデルは、内含的な推論を要する多様で複雑な画像編集タスクを処理する点で依然として課題を抱えており、さまざまな推論シナリオにおいてモデルの性能を体系的に評価できる包括的なベンチマークの必要性が高まっている。既存のベンチマークは、現実世界のシナリオにおける単一オブジェクトの属性変換に主に焦点を当てており、効果的な評価を可能としているものの、以下の二つの重要な課題を抱えている。(1) 実際の応用において一般的な、複数オブジェクト間の相互作用や人間が定義したルールを含むゲームワールドシナリオをほとんど無視していること;(2) 生成画像の評価にテキストベースの参照のみに依存しているため、特に複雑な推論シナリオにおいて系統的な誤判定を引き起こす可能性があること。こうした問題に対応するため、本研究では推論に基づく画像編集評価を目的とした統合型ベンチマーク「UniREditBench」を提案する。本ベンチマークは、8つの主要次元および18のサブ次元にわたる現実世界およびゲームワールドのシナリオをカバーする、2,700件の詳細にわたるキュレーション済みサンプルから構成されている。評価の信頼性を向上させるために、各サンプル評価にテキストおよび真値画像の二重参照を提供するマルチモーダル二重参照評価手法を導入した。さらに、自動化されたマルチシナリオデータ合成パイプラインを設計し、チェーン・オブ・トゥーク(CoT)推論アノテーションを豊富に備えた大規模な合成データセット「UniREdit-Data-100K」を構築した。このデータセット上でBagelモデルをファインチューニングし、UniREdit-Bagelを構築した。その結果、ドメイン内およびドメイン外の両設定において、顕著な性能向上が確認された。オープンソースおよびクローズドソースの画像編集モデルを包括的にベンチマーク化した結果、各モデルの強みと弱みが、さまざまな側面から明らかになった。