19 天前

用于视频动作分类的互模态学习

Stepan Komkov, Maksim Dzabraev, Aleksandr Petiushko
用于视频动作分类的互模态学习
摘要

视频动作分类模型的构建正迅速发展。然而,通过将不同模态(如光流)训练的相同模型进行集成,仍可显著提升现有模型的性能。遗憾的是,在推理阶段使用多种模态会带来高昂的计算成本。近期研究致力于将多模态优势整合到单一的RGB模型中,但仍有改进空间。本文探索了多种将集成能力嵌入单一模型的方法。实验表明,合理的初始化策略以及模态间的相互学习机制,能够有效提升单模态模型的性能。基于此,我们在Something-Something-v2基准测试中取得了当前最优的实验结果。