6 个月前

计算机视觉

Hao Wang Weining Wang Jing Liu

摘要

视频语义分割需要充分挖掘视频序列中帧与帧之间的复杂时序关系。以往的方法通常依赖于精确的光流估计来建模时序关联，但这一过程往往带来巨大的计算开销。本文提出一种时序记忆注意力网络（Temporal Memory Attention Network, TMANet），基于自注意力机制，无需进行繁琐的光流预测，即可自适应地整合视频序列中的长时序依赖关系。具体而言，我们利用多个历史帧构建一个记忆模块，用于存储当前帧的时序信息；随后设计了一种时序记忆注意力模块，用于捕捉当前帧与记忆内容之间的关联，从而增强当前帧的特征表示能力。所提方法在两个具有挑战性的视频语义分割数据集上取得了新的最先进性能，尤其在Cityscapes数据集上达到80.3%的mIoU，在CamVid数据集上达到76.5%的mIoU（基于ResNet-50主干网络）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Hao Wang Weining Wang Jing Liu

摘要

视频语义分割需要充分挖掘视频序列中帧与帧之间的复杂时序关系。以往的方法通常依赖于精确的光流估计来建模时序关联，但这一过程往往带来巨大的计算开销。本文提出一种时序记忆注意力网络（Temporal Memory Attention Network, TMANet），基于自注意力机制，无需进行繁琐的光流预测，即可自适应地整合视频序列中的长时序依赖关系。具体而言，我们利用多个历史帧构建一个记忆模块，用于存储当前帧的时序信息；随后设计了一种时序记忆注意力模块，用于捕捉当前帧与记忆内容之间的关联，从而增强当前帧的特征表示能力。所提方法在两个具有挑战性的视频语义分割数据集上取得了新的最先进性能，尤其在Cityscapes数据集上达到80.3%的mIoU，在CamVid数据集上达到76.5%的mIoU（基于ResNet-50主干网络）。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供