Command Palette
Search for a command to run...
Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

摘要
以相机为中心的理解与生成是空间智能的两大基石,但它们通常被孤立研究。我们提出了 Puffin——一种统一的、以相机为中心的多模态模型,该模型将空间感知能力沿相机维度进行拓展。Puffin 融合语言回归与基于扩散的生成技术,能够从任意视角解析并生成场景。为弥合相机与视觉-语言模态之间的鸿沟,我们提出了一种新颖范式:将相机视为语言,实现“以相机思维”。该范式引导模型在推理几何上下文的同时,将空间对齐的视觉线索与摄影术语进行对齐。Puffin 在 Puffin-4M 上进行训练,该数据集包含 400 万条视觉-语言-相机三元组,规模庞大。我们同时引入全局相机参数与像素级相机映射,从而实现灵活且可靠的三维空间生成。实验表明,Puffin 在以相机为中心的生成与理解任务中,性能显著优于专用模型。经过指令微调后,Puffin 可泛化至多种跨视角任务,包括空间想象、世界探索与摄影指导。我们将开源代码、模型、数据集构建流程及基准测试,以推动多模态空间智能研究的发展。