8 个月前

多任务学习

计算机视觉

Xiao Yicheng ; Luo Zhuoyan ; Liu Yong ; Ma Yue ; Bian Hengwei ; Ji Yatai ; Yang Yujiu ; Li Xiu

摘要

视频时刻检索（MR）和高光检测（HD）由于对视频分析需求的不断增长而受到了广泛关注。近期的方法将MR和HD视为类似的视频定位问题，并通过基于 Transformer 的架构来共同解决这些问题。然而，我们观察到MR和HD的重点不同，前者需要感知局部关系，而后者则优先考虑全局上下文的理解。因此，缺乏针对特定任务的设计将不可避免地导致在关联这两个任务内在特点方面的局限性。为了解决这一问题，我们提出了一种统一的视频理解框架（UVCOM），以弥合差距并有效联合解决MR和HD。通过在多粒度上进行模态内和模态间的渐进融合，UVCOM 实现了对视频处理的全面理解。此外，我们提出了多方面对比学习方法，通过对齐良好的多模态空间来加强局部关系建模和全局知识积累。在QVHighlights、Charades-STA、TACoS、YouTube Highlights 和 TVSum 数据集上的大量实验表明，UVCOM 的有效性和合理性显著优于现有最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多任务学习

计算机视觉

Xiao Yicheng ; Luo Zhuoyan ; Liu Yong ; Ma Yue ; Bian Hengwei ; Ji Yatai ; Yang Yujiu ; Li Xiu

摘要

视频时刻检索（MR）和高光检测（HD）由于对视频分析需求的不断增长而受到了广泛关注。近期的方法将MR和HD视为类似的视频定位问题，并通过基于 Transformer 的架构来共同解决这些问题。然而，我们观察到MR和HD的重点不同，前者需要感知局部关系，而后者则优先考虑全局上下文的理解。因此，缺乏针对特定任务的设计将不可避免地导致在关联这两个任务内在特点方面的局限性。为了解决这一问题，我们提出了一种统一的视频理解框架（UVCOM），以弥合差距并有效联合解决MR和HD。通过在多粒度上进行模态内和模态间的渐进融合，UVCOM 实现了对视频处理的全面理解。此外，我们提出了多方面对比学习方法，通过对齐良好的多模态空间来加强局部关系建模和全局知识积累。在QVHighlights、Charades-STA、TACoS、YouTube Highlights 和 TVSum 数据集上的大量实验表明，UVCOM 的有效性和合理性显著优于现有最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供