2 个月前

学习长期时空图用于活跃说话人检测

Min, Kyle ; Roy, Sourya ; Tripathi, Subarna ; Guha, Tanaya ; Majumdar, Somdeb
学习长期时空图用于活跃说话人检测
摘要

在包含多个发言者的视频中进行活跃发言人检测(Active Speaker Detection, ASD)是一项具有挑战性的任务,因为它需要学习有效的视听特征以及长时间窗口内的时空相关性。本文提出了一种新颖的时空图学习框架——SPELL,该框架能够解决如ASD等复杂任务。为此,视频帧中的每个人首先被编码为该帧的一个独特节点。同一人在不同帧中的节点相互连接以编码其时间动态。此外,同一帧内的节点也相互连接以编码人际间的关系。因此,SPELL将活跃发言人检测问题简化为一个节点分类任务。重要的是,SPELL能够在不依赖计算成本高昂的全连接图神经网络的情况下,对所有节点进行长时间上下文的推理。通过在AVA-ActiveSpeaker数据集上进行大量实验,我们证明了基于图的学习表示可以显著提高活跃发言人检测性能,这得益于其明确的时空结构。 SPELL不仅超越了所有先前的最先进方法,而且所需的内存和计算资源显著减少。我们的代码已公开发布在https://github.com/SRA2/SPELL。

学习长期时空图用于活跃说话人检测 | 最新论文 | HyperAI超神经