6 个月前

计算机视觉

计算机视觉

Toby Perrett Alessandro Masullo Tilo Burghardt Majid Mirmehdi Dima Damen

摘要

我们提出了一种新颖的少样本动作识别方法，通过在查询视频与支持集视频之间寻找时间上对齐的帧元组（frame tuples），实现动作匹配。与以往的少样本方法不同，我们采用CrossTransformer注意力机制构建类别原型，以捕捉所有支持视频中相关的子序列，而非依赖类别平均值或单一最佳匹配。视频表征由包含不同帧数的有序帧元组构成，从而能够对不同速度和时间偏移的动作子序列进行有效比较。我们提出的时序关系交叉变换器（Temporal-Relational CrossTransformers, TRX）在Kinetics、Something-Something V2（SSv2）、HMDB51和UCF101的少样本划分上均取得了当前最优性能。尤为重要的是，由于具备建模时序关系的能力，我们的方法在SSv2数据集上的表现相比先前工作显著提升，准确率高出12%。详细的消融实验进一步验证了同时匹配多个支持集视频以及学习高阶关系交叉变换器的重要性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Toby Perrett Alessandro Masullo Tilo Burghardt Majid Mirmehdi Dima Damen

摘要

我们提出了一种新颖的少样本动作识别方法，通过在查询视频与支持集视频之间寻找时间上对齐的帧元组（frame tuples），实现动作匹配。与以往的少样本方法不同，我们采用CrossTransformer注意力机制构建类别原型，以捕捉所有支持视频中相关的子序列，而非依赖类别平均值或单一最佳匹配。视频表征由包含不同帧数的有序帧元组构成，从而能够对不同速度和时间偏移的动作子序列进行有效比较。我们提出的时序关系交叉变换器（Temporal-Relational CrossTransformers, TRX）在Kinetics、Something-Something V2（SSv2）、HMDB51和UCF101的少样本划分上均取得了当前最优性能。尤为重要的是，由于具备建模时序关系的能力，我们的方法在SSv2数据集上的表现相比先前工作显著提升，准确率高出12%。详细的消融实验进一步验证了同时匹配多个支持集视频以及学习高阶关系交叉变换器的重要性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供