HyperAIHyperAI

Command Palette

Search for a command to run...

学习长期时空图用于活跃说话人检测

Min Kyle ; Roy Sourya ; Tripathi Subarna ; Guha Tanaya ; Majumdar Somdeb

摘要

在包含多个发言者的视频中进行活跃发言人检测(Active Speaker Detection, ASD)是一项具有挑战性的任务,因为它需要学习有效的视听特征以及长时间窗口内的时空相关性。本文提出了一种新颖的时空图学习框架——SPELL,该框架能够解决如ASD等复杂任务。为此,视频帧中的每个人首先被编码为该帧的一个独特节点。同一人在不同帧中的节点相互连接以编码其时间动态。此外,同一帧内的节点也相互连接以编码人际间的关系。因此,SPELL将活跃发言人检测问题简化为一个节点分类任务。重要的是,SPELL能够在不依赖计算成本高昂的全连接图神经网络的情况下,对所有节点进行长时间上下文的推理。通过在AVA-ActiveSpeaker数据集上进行大量实验,我们证明了基于图的学习表示可以显著提高活跃发言人检测性能,这得益于其明确的时空结构。 SPELL不仅超越了所有先前的最先进方法,而且所需的内存和计算资源显著减少。我们的代码已公开发布在https://github.com/SRA2/SPELL


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供