9 天前

用于多模态动作预测的前瞻特征融合Transformer

Zeyun Zhong, David Schneider, Michael Voit, Rainer Stiefelhagen, Jürgen Beyerer
用于多模态动作预测的前瞻特征融合Transformer
摘要

尽管人类行为预测本质上是一个多模态任务,但当前主流方法在知名的行为预测数据集上仍通过集成策略,对单模态预测网络的得分进行平均来利用多模态数据。在本工作中,我们提出了一种基于Transformer的模态融合技术,能够在早期阶段统一多模态数据。所提出的前瞻性特征融合Transformer(Anticipative Feature Fusion Transformer, AFFT)在性能上显著优于主流的得分融合方法,并在EpicKitchens-100和EGTEA Gaze+数据集上取得了当前最优的实验结果。该模型具有良好的可扩展性,无需修改网络结构即可轻松集成新的模态。基于此,我们在EpicKitchens-100数据集上提取了音频特征,并将其加入社区中常用的特征集合中,以进一步提升模型表现。