9 天前
卷积张量-列车LSTM用于时空学习
Jiahao Su, Wonmin Byeon, Jean Kossaifi, Furong Huang, Jan Kautz, Animashree Anandkumar

摘要
从时空数据中学习在人类行为分析、目标跟踪、视频压缩以及物理模拟等多个领域具有广泛应用。然而,现有方法在处理诸如长期预测等具有挑战性的视频任务时仍表现不佳。其主要原因在于,此类任务需要建模视频序列中的长期时空相关性。为此,本文提出了一种高阶卷积LSTM模型,能够高效地学习这些长期相关性,并以简洁的形式表示历史信息。该目标通过引入一种新颖的张量列车(tensor train)模块实现,该模块通过融合不同时刻的卷积特征来完成预测。为在计算和内存开销方面实现可行性,本文进一步提出了一种新型的卷积张量列车分解方法,用于高阶模型的结构设计。该分解方法通过联合近似一系列卷积核,将其表示为低秩张量列车因子分解,显著降低了模型复杂度。实验结果表明,所提模型在多项任务和数据集上均取得了当前最优的性能,包括在Moving-MNIST-2和KTH动作数据集上的多步视频预测任务,以及Something-Something V2数据集上的早期动作识别任务,同时仅需使用远少于现有方法的参数量,甚至显著低于基线模型。