
摘要
动作预测旨在在动作发生之前进行检测。许多机器人和监控领域的实际应用都与此预测能力密切相关。目前的方法通过首先预测未来帧的视觉表示,然后对这些预测的表示进行分类以识别动作来解决这一问题。然而,现有的方法仅基于单个过去的帧表示,忽略了历史趋势。此外,它们只能预测固定的时间点的未来情况。为此,我们提出了一种强化编码器-解码器(Reinforced Encoder-Decoder, RED)网络用于动作预测。RED将多个历史表示作为输入,并学习生成一系列未来的表示。RED的一个显著特点是采用了强化模块以提供序列级别的监督;奖励函数的设计旨在鼓励系统尽可能早地做出正确的预测。我们在TVSeries、THUMOS-14和TV-Human-Interaction数据集上测试了RED的动作预测性能,并在所有数据集上均达到了当前最佳水平。