8 个月前

计算机视觉

计算机视觉

Tomas Jakab Ankush Gupta Hakan Bilen Andrea Vedaldi

摘要

我们提出了一种无需任何人工监督即可学习视觉对象（如面部的眼睛和鼻子）地标检测器的方法。我们将此问题转化为生成图像的任务，这些图像结合了在第一个示例图像中看到的对象外观与在第二个示例图像中看到的对象几何结构，其中两个示例之间的差异在于视角变化和/或对象变形。为了分解外观和几何结构，我们在几何提取过程中引入了一个紧密的瓶颈，该瓶颈选择并提炼出与几何相关的特征。与通常使用生成对抗网络的标准图像生成问题相比，我们的生成任务同时依赖于外观和几何结构，因此显著减少了模糊性，以至于采用简单的感知损失公式就足够了。我们展示了该方法可以通过合成图像变形或视频来学习对象地标，全程无需人工监督，并且性能优于当前最先进的无监督地标检测器。此外，我们还证明了该方法适用于多种数据集——包括面部、人体、3D对象和数字——而无需进行任何修改。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Tomas Jakab Ankush Gupta Hakan Bilen Andrea Vedaldi

摘要

我们提出了一种无需任何人工监督即可学习视觉对象（如面部的眼睛和鼻子）地标检测器的方法。我们将此问题转化为生成图像的任务，这些图像结合了在第一个示例图像中看到的对象外观与在第二个示例图像中看到的对象几何结构，其中两个示例之间的差异在于视角变化和/或对象变形。为了分解外观和几何结构，我们在几何提取过程中引入了一个紧密的瓶颈，该瓶颈选择并提炼出与几何相关的特征。与通常使用生成对抗网络的标准图像生成问题相比，我们的生成任务同时依赖于外观和几何结构，因此显著减少了模糊性，以至于采用简单的感知损失公式就足够了。我们展示了该方法可以通过合成图像变形或视频来学习对象地标，全程无需人工监督，并且性能优于当前最先进的无监督地标检测器。此外，我们还证明了该方法适用于多种数据集——包括面部、人体、3D对象和数字——而无需进行任何修改。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供