Command Palette

Search for a command to run...

1 个月前

作画易,思辨难:文本到图像模型能否铺就舞台,却无法主导演出?

Ouxiang Li Yuan Wang Xinting Hu Huijuan Huang et al

作画易,思辨难:文本到图像模型能否铺就舞台,却无法主导演出?

摘要

文本到图像(T2I)生成旨在根据文本提示合成图像,这些提示既明确指定了图像中必须呈现的内容,又隐含了可推断的信息,从而对应于两个核心能力:构图与推理。然而,随着T2I模型在构图之外推理能力的持续进步,现有基准测试在跨能力及能力内部的全面评估方面暴露出明显局限。与此同时,这些技术进步也使模型能够处理更复杂的提示,而当前基准测试仍局限于低场景密度和简化的单对一推理任务。为应对上述局限,我们提出T2I-CoReBench——一个全面且复杂的基准测试,用于评估T2I模型的构图与推理能力。为确保评估的全面性,我们以场景图元素(实例、属性与关系)为核心构建构图维度,并基于推理的哲学框架(演绎、归纳与溯因)构建推理维度,形成一个12维的评估分类体系。为提升任务复杂性,我们依据现实场景固有的复杂性,精心设计每条提示:在构图方面强调高组合密度,在推理方面要求多步推断。此外,每条提示均配备一份检查清单,包含一系列独立的“是/否”问题,用于逐一评估每个预期元素,从而实现细粒度且可靠的评估。统计数据显示,本基准测试包含1,080个具有挑战性的提示,以及约13,500个检查清单问题。对27个当前主流T2I模型的实验结果表明,这些模型在复杂高密度场景下的构图能力仍存在显著局限;而推理能力则更为滞后,成为关键瓶颈——所有模型均难以从提示中推断出隐含信息。项目主页:this https URL。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供