HyperAIHyperAI

Command Palette

Search for a command to run...

用于视频动作分类的互模态学习

Stepan Komkov Maksim Dzabraev Aleksandr Petiushko

摘要

视频动作分类模型的构建正迅速发展。然而,通过将不同模态(如光流)训练的相同模型进行集成,仍可显著提升现有模型的性能。遗憾的是,在推理阶段使用多种模态会带来高昂的计算成本。近期研究致力于将多模态优势整合到单一的RGB模型中,但仍有改进空间。本文探索了多种将集成能力嵌入单一模型的方法。实验表明,合理的初始化策略以及模态间的相互学习机制,能够有效提升单模态模型的性能。基于此,我们在Something-Something-v2基准测试中取得了当前最优的实验结果。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供