11 天前
听我说:用于音频增强时序动作定位的融合方法
Anurag Bagchi, Jazib Mahmood, Dolton Fernandes, Ravi Kiran Sarvadevabhatla

摘要
目前最先进的未剪辑视频时序动作定位(Temporal Action Localization, TAL)架构仅考虑了RGB与光流(Flow)模态,完全忽略了信息丰富的音频模态。尽管音频融合已在相关但相对更简单的剪辑级(clip-level)动作识别任务中得到探索,但TAL面临独特的挑战。本文提出了一种简单而有效的基于融合的TAL方法。据我们所知,本工作是首个在监督式TAL任务中联合考虑音频与视频模态的研究。实验结果表明,我们的方法能够持续提升当前最先进的纯视频TAL方法的性能。具体而言,该方法在大规模基准数据集上实现了新的最优性能:在ActivityNet-1.3数据集上达到54.34 [email protected],在THUMOS14数据集上达到57.18 [email protected]。我们的实验涵盖了多种融合策略、模态组合以及TAL架构的消融研究。相关代码、模型及数据已公开,详见:https://github.com/skelemoa/tal-hmo。