6 个月前

多任务学习

计算机视觉

Xingyi Zhou Tianwei Yin Vladlen Koltun Philipp Krähenbühl

摘要

我们提出了一种基于Transformer的新型全局多目标跟踪架构。该网络以一段短时视频帧序列作为输入，能够生成所有目标的全局轨迹。其核心组件是一个全局跟踪Transformer，该模块在序列中所有帧的物体之间进行操作。Transformer对所有帧中的物体特征进行编码，并利用轨迹查询（trajectory queries）将这些特征聚类为完整的轨迹。轨迹查询源自单帧中的物体特征，能够自然地生成唯一且连续的轨迹。与需要中间两两匹配或组合关联的现有方法不同，我们的全局跟踪Transformer无需此类步骤，且可与目标检测器联合训练。在广泛使用的MOT17基准测试中，该方法取得了75.3的MOTA和59.1的HOTA，表现具有竞争力。更重要的是，本框架可无缝集成至当前先进的大词汇量检测器中，实现对任意类别的物体进行跟踪。在具有挑战性的TAO数据集上的实验表明，我们的方法在基于两两关联的基线模型上持续取得提升，跟踪mAP指标显著优于已有研究成果，提升达7.7个百分点。代码已开源，地址为：https://github.com/xingyizhou/GTR。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

计算机视觉

Xingyi Zhou Tianwei Yin Vladlen Koltun Philipp Krähenbühl

摘要

我们提出了一种基于Transformer的新型全局多目标跟踪架构。该网络以一段短时视频帧序列作为输入，能够生成所有目标的全局轨迹。其核心组件是一个全局跟踪Transformer，该模块在序列中所有帧的物体之间进行操作。Transformer对所有帧中的物体特征进行编码，并利用轨迹查询（trajectory queries）将这些特征聚类为完整的轨迹。轨迹查询源自单帧中的物体特征，能够自然地生成唯一且连续的轨迹。与需要中间两两匹配或组合关联的现有方法不同，我们的全局跟踪Transformer无需此类步骤，且可与目标检测器联合训练。在广泛使用的MOT17基准测试中，该方法取得了75.3的MOTA和59.1的HOTA，表现具有竞争力。更重要的是，本框架可无缝集成至当前先进的大词汇量检测器中，实现对任意类别的物体进行跟踪。在具有挑战性的TAO数据集上的实验表明，我们的方法在基于两两关联的基线模型上持续取得提升，跟踪mAP指标显著优于已有研究成果，提升达7.7个百分点。代码已开源，地址为：https://github.com/xingyizhou/GTR。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供