17 天前

M&M Mix:一种多模态多视角Transformer集成模型

Xuehan Xiong, Anurag Arnab, Arsha Nagrani, Cordelia Schmid
M&M Mix:一种多模态多视角Transformer集成模型
摘要

本报告阐述了我们在2022年Epic-Kitchens动作识别挑战赛中获奖方案的技术思路。该方法基于我们近期提出的多视角视频识别模型——多视角Transformer(Multiview Transformer for Video Recognition, MTV),并将其扩展应用于多模态输入场景。最终提交的方案由一组多模态MTV(Multimodal MTV, M&M)模型构成,这些模型在骨干网络规模和输入模态方面各不相同,形成集成结构。该方法在测试集上的动作类别Top-1准确率达到52.8%,较去年冠军方案提升了4.1个百分点。