6 个月前

摘要

视频动作分类模型的构建正迅速发展。然而，通过将不同模态（如光流）训练的相同模型进行集成，仍可显著提升现有模型的性能。遗憾的是，在推理阶段使用多种模态会带来高昂的计算成本。近期研究致力于将多模态优势整合到单一的RGB模型中，但仍有改进空间。本文探索了多种将集成能力嵌入单一模型的方法。实验表明，合理的初始化策略以及模态间的相互学习机制，能够有效提升单模态模型的性能。基于此，我们在Something-Something-v2基准测试中取得了当前最优的实验结果。

源 PDF