9 天前

不确定性感知的动作解耦Transformer用于动作预测

{Qiang Ji, Kwonjoon Lee, Shao-Yuan Lo, Nakul Agarwal, Hongji Guo}
不确定性感知的动作解耦Transformer用于动作预测
摘要

人类行为预测旨在基于历史观测数据,预判个体未来将采取的行为。本文提出了一种不确定性感知的行为解耦Transformer模型(Uncertainty-aware Action Decoupling Transformer, UADT),用于行为预测任务。与现有方法直接以动词-名词对形式预测行为不同,我们首次将行为预测任务解耦为动词预测与名词预测两个独立子任务。其核心目标在于通过两个子任务之间的相互协作,最终提升整体行为预测性能。具体而言,我们设计了一种双流Transformer架构,包含一个“动词到名词”模型与一个“名词到动词”模型。前者利用动词信息增强名词预测,后者则反之,实现双向信息交互。为进一步提升模型表达能力,我们以概率化方式扩展该架构,量化每个解耦任务的预测不确定性,并据此选择最具信息量且冗余度低的特征表示。在此机制下,名词预测可有效利用最具判别性的动词特征,而动词预测亦能借助高质量的名词信息。最终,系统根据两分支的不确定性动态融合其输出,实现联合行为预测。我们在多个主流行为预测基准数据集上验证了所提方法的有效性,包括EPIC-KITCHENS、EGTEA Gaze+和50-Salads,实验结果表明,UADT在各项指标上均达到当前最优(state-of-the-art)水平,显著提升了行为预测的准确性和鲁棒性。