Command Palette

Search for a command to run...

19 天前

LEGO-Eval:面向通过工具增强合成3D具身环境的细粒度评估

Gyeom Hwangbo Hyungjoo Chae Minseok Kang Hyeonjong Ju Soohyun Oh Jinyoung Yeo

LEGO-Eval:面向通过工具增强合成3D具身环境的细粒度评估

摘要

尽管近年来大型语言模型(LLMs)在自动生成3D场景方面取得了进展,生成的场景往往仍缺乏真实世界环境中常见的合理空间布局和物体属性。这一问题的根源在于指令信息的细节不足与粒度粗略,因此,推动基于更详尽、细粒度指令的3D场景合成,使其更贴近真实世界环境,变得尤为关键。若缺乏真实感的场景,训练具身智能体(embodied agents)时所处的环境不具现实性,可能导致其学习到与真实世界物理规律和语义严重偏离的先验知识,从而在实际部署时性能显著下降。因此,验证细粒度指令与生成场景之间的一致性,对实现有效学习至关重要。然而,当前的评估方法,如CLIPScore和视觉-语言模型(VLMs),往往难以可靠地衡量这种一致性。其主要局限在于对3D场景的理解浅层化,常导致场景元素的表征缺乏正确地空间或语义锚定。为解决该问题,我们提出LEGO-Eval——一个配备多种工具的评估框架,能够显式地对场景元素进行锚定,从而实现更精准的一致性评估。同时,我们构建了LEGO-Bench,一个包含详细指令的基准数据集,用于描述真实世界环境中的复杂布局与属性。实验结果表明,LEGO-Eval在评估场景与指令一致性方面,相比VLM作为评判者的方法,F1分数提升0.41。基于LEGO-Bench的基准测试揭示了当前生成方法存在显著局限:在所有评估方法中,成功生成与细粒度指令完全对齐场景的比例最高仅为10%。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LEGO-Eval:面向通过工具增强合成3D具身环境的细粒度评估 | 论文 | HyperAI超神经