3 年前

Varun Jampani Sebastian Nowozin Matthew Loper Peter V. Gehler

计算机视觉简介

20 小时 RTX 5090 算力资源，仅 $1 (原价 $7)

摘要

计算机视觉之所以困难，是因为光照、形状和纹理存在巨大的变异性；此外，由于遮挡的存在，图像信号是非加性的。生成式模型承诺通过准确地将图像形成过程建模为具有先验信念的潜在变量的函数，来解释这种变异性。原则上，贝叶斯后验推断可以据此解释观测结果。尽管直觉上很有吸引力，但由于后验推断的困难，计算机视觉领域的生成式模型在很大程度上未能兑现这一承诺。因此，该社区更倾向于高效的判别式方法。我们仍然相信生成式模型在计算机视觉中的有用性，但我们认为需要利用现有的判别式甚至启发式的计算机视觉方法。我们通过一种信息感知采样器（informed sampler）以严谨的方式实现了这一思想，并在精心设计的实验中，针对包含渲染器程序作为组件的挑战性生成式模型展示了其效果。我们专注于反转现有图形渲染引擎的问题，这种方法可以被理解为“逆向图形学”（Inverse Graphics）。信息感知采样器利用基于现有计算机视觉技术的简单判别式提议，显著提升了推断性能。

一句话总结

作者提出了信息引导采样器（Informed Sampler），这是一种贝叶斯推断框架，通过整合现有计算机视觉技术中的判别式提议来增强生成式计算机视觉模型，从而显著提升了逆向图形学任务（即逆向图形渲染引擎）的推断性能。

核心贡献

引入了一种信息引导的MCMC采样器，利用梯度直方图特征和OpenCV库生成判别式提议，以实现生成式计算机视觉模型中高效的后验推断。
将该框架应用于逆向现有图形渲染引擎，用于相机外参估计、遮挡推理以及基于BlendSCAPE模型的人体参数化形状估计。
证明了与标准的Metropolis-Hastings采样相比，该信息引导采样器在具有挑战性的多模态问题上能够实现可靠的收敛并带来显著的性能提升。

引言

生成式计算机视觉模型旨在通过模拟物理成像过程来重建场景参数，为逆向图形学和贝叶斯推断提供了严谨的理论框架。然而，这些模型长期以来面临挑战，因为在具有高维空间、复杂遮挡和多模态分布的情况下，后验推断在计算上变得不可行。这一根本性瓶颈促使该领域转向完全基于判别式的方法，以绕过显式的生成式推理。为克服这一限制，作者开发了信息引导采样器，这是一种MCMC方法，利用标准的计算机视觉判别特征为潜在变量生成针对性提议。通过将启发式引导与严格的生成式评估相结合，该方法使得在以往难以触及的复杂基于渲染的模型中进行高效且可靠的后验估计成为可能。

方法

作者利用Metropolis-Hastings马尔可夫链蒙特卡洛（MCMC）框架对后验分布 $p(\theta|\hat{I})$ 进行贝叶斯推断，其中 $\theta$ 表示生成式模型的参数， $\hat{I}$ 为观测图像。采用该方法的原因是，由于生成过程（在此语境下为图形引擎渲染图像）的复杂性，后验分布通常难以直接计算。该方法的核心在于设计一种信息引导的提议分布，以提升采样过程的效率。

标准MCMC流程涉及从提议分布 $T(\cdot|\theta_t)$ 中迭代地提议一个新状态 $\bar{\theta}$ ，并基于Metropolis-Hastings接受率接受或拒绝该提议。本文的关键创新在于构建了一个混合提议分布 $T_\alpha(\cdot|\hat{I},\theta_t)$ ，它将局部提议 $T_L(\cdot|\theta_t)$ 与全局提议 $T_G(\cdot|\hat{I})$ 相结合。局部提议通常为多元正态分布等对称分布，有助于对参数空间进行局部探索。全局提议 $T_G(\cdot|\hat{I})$ 以观测图像 $\hat{I}$ 为条件，旨在参数空间中实现更大且信息量更丰富的跳跃。该全局提议在离线阶段通过判别式方法进行训练，从而能够利用关于图像与参数之间关系的知识。

全局提议 $T_G$ 的构建基于非参数密度估计技术。该方法首先通过从生成式模型 $p(I|\theta)p(\theta)$ 进行模拟，生成大量成对样本 $(\theta^{(i)}, I^{(i)})$ 。为每张图像计算特征表示 $v(I)$ ，并应用k-means聚类算法根据这些特征对图像进行分组。对于每个生成的聚类 $C_j$ ，对相应的参数集合 $\theta^{(C_j)}$ 拟合核密度估计（KDE）。该过程为任意新图像 $\hat{I}$ 生成条件密度估计 $T_G(\cdot|\hat{I})$ ：图像首先通过 $v(\hat{I})$ 被分配至某个聚类，随后将该聚类对应的KDE用作全局提议。

在测试阶段，被称为INF-MH的信息引导采样器使用混合系数 $\alpha \in [0, 1]$ 将局部提议与全局提议相结合。整体转移核为 $T = \alpha T_L + (1 - \alpha) T_G$ 。这种混合机制允许在局部探索与基于图像条件的全局跳跃之间实现灵活平衡。算法首先为观测图像确定合适的聚类，随后从混合核中进行采样，并应用Metropolis-Hastings接受规则以确保达到正确的平稳分布。该框架设计为通用架构，作者展示了其在各类计算机视觉问题中的应用。

实验

评估在三项计算机视觉任务中使用了多个并行MCMC链，以检验采样器的收敛性与后验探索能力。相机外参估计与遮挡瓦片实验验证了该方法在应对多模态与高维分布时的导航能力，证明了信息引导采样结合分块更新成功克服了传统基线方法的收敛失败问题。此外，人体形状估计任务通过准确的3D网格重建、可靠的不确定性量化以及在不完整观测下的鲁棒性，证实了该方法的实用价值，共同确立了利用判别式特征引导MCMC探索可显著提升复杂视觉问题推断可靠性的结论。

作者在三种实验设置下对比了多种采样方法，使用接受率、收敛诊断和模式发现来评估其性能。结果表明，与基线方法相比，信息引导采样方法（尤其是INF-MH）实现了更高的接受率和更快的收敛速度。信息引导采样器在探索多模态后验分布和发现不同模式方面也表现出更优的性能。信息引导采样方法相比基线方法获得了更高的接受率和更快的收敛速度。在多模态后验分布中，INF-MH的收敛速度更快且发现的模式更多。在不同实验设置下，该信息引导采样方法在收敛性和模式发现方面均优于基线方法。

作者从收敛性和接受率的角度分析了不同采样方法的性能，重点关注提议标准差对这些指标的影响。结果表明，随着提议标准差的增加，接受率下降，而PSRF值在经过一定次数的迭代后趋于稳定，表明收敛。信息引导采样方法相比基线方法实现了更高的接受率和更快的收敛速度。接受率随提议标准差的增加而下降，在较低值时观察到最佳性能。PSRF值在数千次迭代后趋于稳定，表明所有方法均已收敛。信息引导采样方法相比基线方法实现了更高的接受率和更快的收敛速度。

作者展示了人体形状估计实验的结果，该实验利用生成式模型和信息引导采样方法从深度图像中推断3D人体形状。该方法结合全局与局部提议以提升收敛性与准确性，结果表明信息引导采样器相比基线方法实现了更低的重建误差和更好的收敛性。该方法还允许对重建网格进行不确定性量化，并支持预测带有相关置信区间的人体测量数据。在人体形状估计中，信息引导采样方法相比基线方法实现了更低的重建误差和更快的收敛速度。所提方法能够对重建的3D网格进行不确定性量化，且误差较高区域的方差也相应较高。可以从形状参数的后验分布中预测人体测量数据，结果表明该方法能够准确恢复并刻画不确定性。

作者跨多个实验分析了信息引导采样方法与基线采样器的性能对比。结果表明，与传统方法相比，信息引导采样器实现了更快的收敛速度和更高的接受率，且信息引导采样方法中的混合系数对性能具有显著影响。信息引导采样器在收敛速度和采样效率两方面均优于基线方法。信息引导采样方法相比基线采样器实现了更快的收敛速度和更高的接受率。信息引导采样方法中的混合系数显著影响性能，较高值带来更好的接受率。信息引导采样器在收敛速度和采样效率方面优于基线方法。

作者在三种实验设置下对比了多种采样方法，使用接受率、潜在尺度缩减因子和均方根误差评估其性能。结果表明，与基线采样器相比，信息引导采样方法（尤其是结合全局与局部提议的方法）实现了更高的接受率、更快的收敛速度和更低的重建误差。这些方法的性能在不同实验设置下有所差异，信息引导采样器在高维或多模态场景中展现出更优的收敛性和稳定性。在多个实验中，信息引导采样方法相比基线方法实现了更高的接受率和更快的收敛速度。混合核中全局与局部提议的结合带来了优于单独使用任一方法的性能。在高维或多模态问题中，信息引导采样器优于基线方法，后者通常难以收敛或表现出较差的混合效果。

实验在多种设置下将信息引导采样方法与传统基线进行了对比评估，涵盖概率建模任务及3D人体形状估计应用。这些测试验证了各方法在收敛效率、复杂后验空间探索以及目标形状重建方面的有效性。定性而言，信息引导采样器始终展现出更优的稳定性和探索能力，尤其是在结合全局与局部提议时。研究结果证实，该方法不仅能在复杂场景中加速收敛并提升采样效率，还能为实际预测提供可靠的不确定性量化。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

3 年前

Varun Jampani Sebastian Nowozin Matthew Loper Peter V. Gehler

计算机视觉简介

20 小时 RTX 5090 算力资源，仅 $1 (原价 $7)

跳转至 Notebook

摘要

一句话总结

核心贡献

引入了一种信息引导的MCMC采样器，利用梯度直方图特征和OpenCV库生成判别式提议，以实现生成式计算机视觉模型中高效的后验推断。
将该框架应用于逆向现有图形渲染引擎，用于相机外参估计、遮挡推理以及基于BlendSCAPE模型的人体参数化形状估计。
证明了与标准的Metropolis-Hastings采样相比，该信息引导采样器在具有挑战性的多模态问题上能够实现可靠的收敛并带来显著的性能提升。

引言

方法

实验

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

信息感知采样器：生成式计算机视觉模型中贝叶斯推断的判别方法

Varun Jampani Sebastian Nowozin Matthew Loper Peter V. Gehler

计算机视觉简介

摘要

一句话总结

核心贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

信息感知采样器：生成式计算机视觉模型中贝叶斯推断的判别方法

Varun Jampani Sebastian Nowozin Matthew Loper Peter V. Gehler

计算机视觉简介

摘要

一句话总结

核心贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

信息感知采样器：生成式计算机视觉模型中贝叶斯推断的判别方法

Varun Jampani Sebastian Nowozin Matthew Loper Peter V. Gehler

计算机视觉简介

摘要

一句话总结

核心贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters