Command Palette

Search for a command to run...

2 个月前

LatticeWorld:一种由多模态大语言模型驱动的交互式复杂世界生成框架

Yinglin Duan Zhengxia Zou Tongwei Gu Wei Jia Zhan Zhao et al

LatticeWorld:一种由多模态大语言模型驱动的交互式复杂世界生成框架

摘要

近年来,研究日益聚焦于构建能够模拟复杂现实场景的三维世界模型。世界模型已在具身人工智能、自动驾驶、娱乐等多个领域得到广泛应用。更加逼真的、具备精确物理特性的仿真系统能够有效缩小“仿真到现实”之间的差距,从而便捷地获取丰富的现实世界信息。尽管传统的人工建模方法已能实现虚拟三维场景的构建,但现代方法则借助先进的机器学习算法来生成三维世界,其中最新的进展主要集中于生成式方法,这类方法可根据用户指令创建虚拟世界。本文探索了这一研究方向,提出了一种名为 LatticeWorld 的简单而高效的三维世界生成框架,旨在优化三维环境的工业生产流程。LatticeWorld 结合轻量级大语言模型(LLaMA-2-7B)与工业级渲染引擎(如 Unreal Engine 5),实现动态环境的生成。所提出的框架支持文本描述与视觉指令的多模态输入,可构建大规模、可交互的三维世界,具备多智能体动态交互能力、高保真物理仿真以及实时渲染特性。我们通过一系列全面实验对 LatticeWorld 进行评估,结果表明其在场景布局生成和视觉保真度方面均表现出优越的准确性。此外,与传统人工生产方式相比,LatticeWorld 在保持高创意质量的前提下,将工业生产效率提升了超过一倍。我们的演示视频可在此链接查看:[https://...]。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供