8 个月前

计算机视觉

Ge-Peng Ji†1 Guobao Xiao†2 Yu-Cheng Chou†3 Deng-Ping Fan‡4 Kai Zhao5 Geng Chen6 Luc Van Gool4

摘要

我们首次在深度学习时代进行了全面的视频息肉分割（VPS）研究。多年来，由于缺乏大规模细粒度分割注释，VPS的发展并不顺利。为了解决这一问题，我们首先介绍了一个高质量的逐帧注释的VPS数据集，命名为SUN-SEG，该数据集包含来自知名SUN数据库的158,690个结肠镜检查帧。我们提供了多种类型的额外注释，包括属性、对象掩码、边界、涂鸦和多边形。其次，我们设计了一个简单但高效的基线模型，称为PNS+，该模型由一个全局编码器、一个局部编码器和归一化自注意力（NS）块组成。全局和局部编码器接收一个锚定帧和多个连续帧以提取长期和短期时空表示，这些表示随后通过两个NS块逐步更新。大量实验表明，PNS+在性能和实时推理速度（170帧/秒）方面均表现出色，使其成为VPS任务的一个有前景的解决方案。第三，我们在SUN-SEG数据集上广泛评估了13个具有代表性的息肉/对象分割模型，并提供了基于属性的比较。最后，我们讨论了几个开放性问题，并为VPS社区提出了可能的研究方向。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Ge-Peng Ji†1 Guobao Xiao†2 Yu-Cheng Chou†3 Deng-Ping Fan‡4 Kai Zhao5 Geng Chen6 Luc Van Gool4

摘要

我们首次在深度学习时代进行了全面的视频息肉分割（VPS）研究。多年来，由于缺乏大规模细粒度分割注释，VPS的发展并不顺利。为了解决这一问题，我们首先介绍了一个高质量的逐帧注释的VPS数据集，命名为SUN-SEG，该数据集包含来自知名SUN数据库的158,690个结肠镜检查帧。我们提供了多种类型的额外注释，包括属性、对象掩码、边界、涂鸦和多边形。其次，我们设计了一个简单但高效的基线模型，称为PNS+，该模型由一个全局编码器、一个局部编码器和归一化自注意力（NS）块组成。全局和局部编码器接收一个锚定帧和多个连续帧以提取长期和短期时空表示，这些表示随后通过两个NS块逐步更新。大量实验表明，PNS+在性能和实时推理速度（170帧/秒）方面均表现出色，使其成为VPS任务的一个有前景的解决方案。第三，我们在SUN-SEG数据集上广泛评估了13个具有代表性的息肉/对象分割模型，并提供了基于属性的比较。最后，我们讨论了几个开放性问题，并为VPS社区提出了可能的研究方向。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供