8 个月前

计算机视觉

多模态表征

计算机视觉

Min Kyle ; Roy Sourya ; Tripathi Subarna ; Guha Tanaya ; Majumdar Somdeb

摘要

在包含多个发言者的视频中进行活跃发言人检测（Active Speaker Detection, ASD）是一项具有挑战性的任务，因为它需要学习有效的视听特征以及长时间窗口内的时空相关性。本文提出了一种新颖的时空图学习框架——SPELL，该框架能够解决如ASD等复杂任务。为此，视频帧中的每个人首先被编码为该帧的一个独特节点。同一人在不同帧中的节点相互连接以编码其时间动态。此外，同一帧内的节点也相互连接以编码人际间的关系。因此，SPELL将活跃发言人检测问题简化为一个节点分类任务。重要的是，SPELL能够在不依赖计算成本高昂的全连接图神经网络的情况下，对所有节点进行长时间上下文的推理。通过在AVA-ActiveSpeaker数据集上进行大量实验，我们证明了基于图的学习表示可以显著提高活跃发言人检测性能，这得益于其明确的时空结构。 SPELL不仅超越了所有先前的最先进方法，而且所需的内存和计算资源显著减少。我们的代码已公开发布在https://github.com/SRA2/SPELL。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

多模态表征

计算机视觉

Min Kyle ; Roy Sourya ; Tripathi Subarna ; Guha Tanaya ; Majumdar Somdeb

摘要

在包含多个发言者的视频中进行活跃发言人检测（Active Speaker Detection, ASD）是一项具有挑战性的任务，因为它需要学习有效的视听特征以及长时间窗口内的时空相关性。本文提出了一种新颖的时空图学习框架——SPELL，该框架能够解决如ASD等复杂任务。为此，视频帧中的每个人首先被编码为该帧的一个独特节点。同一人在不同帧中的节点相互连接以编码其时间动态。此外，同一帧内的节点也相互连接以编码人际间的关系。因此，SPELL将活跃发言人检测问题简化为一个节点分类任务。重要的是，SPELL能够在不依赖计算成本高昂的全连接图神经网络的情况下，对所有节点进行长时间上下文的推理。通过在AVA-ActiveSpeaker数据集上进行大量实验，我们证明了基于图的学习表示可以显著提高活跃发言人检测性能，这得益于其明确的时空结构。 SPELL不仅超越了所有先前的最先进方法，而且所需的内存和计算资源显著减少。我们的代码已公开发布在https://github.com/SRA2/SPELL。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供