4 个月前

统一多模态

Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

摘要

以相机为中心的理解与生成是空间智能的两大基石，但它们通常被孤立研究。我们提出了 Puffin——一种统一的、以相机为中心的多模态模型，该模型将空间感知能力沿相机维度进行拓展。Puffin 融合语言回归与基于扩散的生成技术，能够从任意视角解析并生成场景。为弥合相机与视觉-语言模态之间的鸿沟，我们提出了一种新颖范式：将相机视为语言，实现“以相机思维”。该范式引导模型在推理几何上下文的同时，将空间对齐的视觉线索与摄影术语进行对齐。Puffin 在 Puffin-4M 上进行训练，该数据集包含 400 万条视觉-语言-相机三元组，规模庞大。我们同时引入全局相机参数与像素级相机映射，从而实现灵活且可靠的三维空间生成。实验表明，Puffin 在以相机为中心的生成与理解任务中，性能显著优于专用模型。经过指令微调后，Puffin 可泛化至多种跨视角任务，包括空间想象、世界探索与摄影指导。我们将开源代码、模型、数据集构建流程及基准测试，以推动多模态空间智能研究的发展。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

4 个月前

统一多模态

Kang Liao Size Wu Zhonghua Wu Linyi Jin Chao Wang Yikai Wang Fei Wang Wei Li Chen Change Loy

摘要

以相机为中心的理解与生成是空间智能的两大基石，但它们通常被孤立研究。我们提出了 Puffin——一种统一的、以相机为中心的多模态模型，该模型将空间感知能力沿相机维度进行拓展。Puffin 融合语言回归与基于扩散的生成技术，能够从任意视角解析并生成场景。为弥合相机与视觉-语言模态之间的鸿沟，我们提出了一种新颖范式：将相机视为语言，实现“以相机思维”。该范式引导模型在推理几何上下文的同时，将空间对齐的视觉线索与摄影术语进行对齐。Puffin 在 Puffin-4M 上进行训练，该数据集包含 400 万条视觉-语言-相机三元组，规模庞大。我们同时引入全局相机参数与像素级相机映射，从而实现灵活且可靠的三维空间生成。实验表明，Puffin 在以相机为中心的生成与理解任务中，性能显著优于专用模型。经过指令微调后，Puffin 可泛化至多种跨视角任务，包括空间想象、世界探索与摄影指导。我们将开源代码、模型、数据集构建流程及基准测试，以推动多模态空间智能研究的发展。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供