6 个月前

计算机视觉

计算机视觉

Xiaojun Chang Yu Qiao Yali Wang Mingfei Han

摘要

近期研究表明，融合不同帧中候选区域（proposals）的上下文信息，能够显著提升视频目标检测的性能。然而，现有方法主要关注单个视频内部候选区域之间的关联关系，而忽略了跨视频候选区域间的内在联系，后者可为识别易混淆目标提供重要的判别性线索。为解决这一局限，本文提出一种新型的跨视频候选区域关系模块（Inter-Video Proposal Relation module）。该模块基于简洁的多层级三元组选择机制，通过建模不同视频间困难候选区域之间的关系，学习更具判别性的目标表示。此外，我们设计了一种分层视频关系网络（Hierarchical Video Relation Network, HVR-Net），以分层方式整合视频内部与跨视频的候选区域关系。该设计能够逐步挖掘并利用视频内与跨视频的上下文信息，从而有效提升视频目标检测性能。我们在大规模视频目标检测基准数据集ImageNet VID上对所提方法进行了验证，结果表明HVR-Net取得了当前最优（SOTA）的检测性能。相关代码与模型将在后续公开发布。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Xiaojun Chang Yu Qiao Yali Wang Mingfei Han

摘要

近期研究表明，融合不同帧中候选区域（proposals）的上下文信息，能够显著提升视频目标检测的性能。然而，现有方法主要关注单个视频内部候选区域之间的关联关系，而忽略了跨视频候选区域间的内在联系，后者可为识别易混淆目标提供重要的判别性线索。为解决这一局限，本文提出一种新型的跨视频候选区域关系模块（Inter-Video Proposal Relation module）。该模块基于简洁的多层级三元组选择机制，通过建模不同视频间困难候选区域之间的关系，学习更具判别性的目标表示。此外，我们设计了一种分层视频关系网络（Hierarchical Video Relation Network, HVR-Net），以分层方式整合视频内部与跨视频的候选区域关系。该设计能够逐步挖掘并利用视频内与跨视频的上下文信息，从而有效提升视频目标检测性能。我们在大规模视频目标检测基准数据集ImageNet VID上对所提方法进行了验证，结果表明HVR-Net取得了当前最优（SOTA）的检测性能。相关代码与模型将在后续公开发布。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供