17 天前

一种用于高效训练视频模型的多网格方法

Chao-Yuan Wu, Ross Girshick, Kaiming He, Christoph Feichtenhofer, Philipp Krähenbühl
一种用于高效训练视频模型的多网格方法
摘要

训练高效的深度视频模型,其耗时比相应的图像模型高一个数量级。训练速度缓慢导致研究周期延长,严重制约了视频理解领域的进展。在遵循图像模型训练的常规做法下,视频模型训练通常采用固定的最小批量(mini-batch)形状:即固定数量的视频片段、帧数和空间尺寸。然而,最优的批量形状究竟为何?高分辨率模型虽性能优异,但训练效率低下;低分辨率模型训练较快,却精度不足。受数值优化中多网格方法(multigrid methods)的启发,我们提出采用可变的最小批量形状,其时空分辨率按预定调度策略动态调整。不同的批量形状通过在多个采样网格上对训练数据进行重采样实现。当其他维度缩小的同时,通过扩大批量大小和学习率,显著加速训练过程。我们通过实验验证了一种通用且稳健的网格调度策略,在不损失准确率的前提下,显著提升了多种模型(I3D、非局部网络、SlowFast)、数据集(Kinetics、Something-Something、Charades)以及不同训练设置(是否预训练、使用128块GPU或仅1块GPU)下的训练速度。以典型示例说明,所提出的多网格方法在相同硬件条件下,使ResNet-50 SlowFast网络的训练速度提升4.5倍(按实际运行时间计算),同时在Kinetics-400数据集上的准确率还提升了0.8个百分点(绝对值)。相关代码已公开发布。