6 个月前

计算机视觉

计算机视觉

Qifeng Chen Zhuwen Li Vladlen Koltun

摘要

交互式图像分割具有多模态特性。当用户点击门的位置时，其意图究竟是选择门本身，还是整个房屋？为此，我们提出了一种端到端的学习方法，用于解决这一语义歧义问题。我们的架构结合了两个卷积神经网络：第一个网络被训练用于根据用户输入生成一系列合理且多样的分割结果；第二个网络则负责在这些候选结果中进行选择。通过最终仅选择一个分割结果，该方法保持了与现有交互式分割界面的兼容性；而在选择之前先生成多个多样化的候选解，使网络架构具备了探索多模态解空间的表示能力。实验结果表明，所提出的方法在交互式图像分割任务上显著优于现有技术，包括此前已应用卷积网络的相关工作，且运行速度大幅提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Qifeng Chen Zhuwen Li Vladlen Koltun

摘要

交互式图像分割具有多模态特性。当用户点击门的位置时，其意图究竟是选择门本身，还是整个房屋？为此，我们提出了一种端到端的学习方法，用于解决这一语义歧义问题。我们的架构结合了两个卷积神经网络：第一个网络被训练用于根据用户输入生成一系列合理且多样的分割结果；第二个网络则负责在这些候选结果中进行选择。通过最终仅选择一个分割结果，该方法保持了与现有交互式分割界面的兼容性；而在选择之前先生成多个多样化的候选解，使网络架构具备了探索多模态解空间的表示能力。实验结果表明，所提出的方法在交互式图像分割任务上显著优于现有技术，包括此前已应用卷积网络的相关工作，且运行速度大幅提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供