6 个月前

计算机视觉

计算机视觉

Faegheh Sardari Armin Mustafa Philip J. B. Jackson Adrian Hilton

摘要

我们提出PAT（Position-aware Transformer），一种基于Transformer的网络架构，通过利用多尺度时间特征，学习视频中复杂的时间共现动作依赖关系。在现有方法中，Transformer中的自注意力机制会丢失关键的时间位置信息，而这一信息对于鲁棒的动作检测至关重要。为解决该问题，我们（i）在自注意力机制中引入相对位置编码，以保留时间位置信息；（ii）设计了一种新颖的非分层网络结构，以捕捉多尺度时间关系，这与近期基于Transformer的方法所采用的分层结构形成对比。我们认为，分层结构中将自注意力机制与多级下采样过程相结合，会导致位置信息的显著丢失。我们在两个具有挑战性的密集多标签基准数据集上评估了所提方法的性能，结果表明，PAT在Charades数据集和MultiTHUMOS数据集上分别将当前最优结果提升了1.1%和0.6%的mAP，分别达到新的最先进水平——26.5%和44.6%的mAP。此外，我们还进行了广泛的消融实验，以系统分析所提出网络中各组件的贡献与影响。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Faegheh Sardari Armin Mustafa Philip J. B. Jackson Adrian Hilton

摘要

我们提出PAT（Position-aware Transformer），一种基于Transformer的网络架构，通过利用多尺度时间特征，学习视频中复杂的时间共现动作依赖关系。在现有方法中，Transformer中的自注意力机制会丢失关键的时间位置信息，而这一信息对于鲁棒的动作检测至关重要。为解决该问题，我们（i）在自注意力机制中引入相对位置编码，以保留时间位置信息；（ii）设计了一种新颖的非分层网络结构，以捕捉多尺度时间关系，这与近期基于Transformer的方法所采用的分层结构形成对比。我们认为，分层结构中将自注意力机制与多级下采样过程相结合，会导致位置信息的显著丢失。我们在两个具有挑战性的密集多标签基准数据集上评估了所提方法的性能，结果表明，PAT在Charades数据集和MultiTHUMOS数据集上分别将当前最优结果提升了1.1%和0.6%的mAP，分别达到新的最先进水平——26.5%和44.6%的mAP。此外，我们还进行了广泛的消融实验，以系统分析所提出网络中各组件的贡献与影响。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供