Command Palette
Search for a command to run...
M&M Mix:マルチモーダル・マルチビュー変換器アンサンブル
M&M Mix:マルチモーダル・マルチビュー変換器アンサンブル
Xuehan Xiong Anurag Arnab Arsha Nagrani Cordelia Schmid
概要
本報告では、2022年Epic-Kitchens行動認識チャレンジにおける優勝ソリューションのアプローチについて説明する。本アプローチは、我々の最近の研究成果である「動画認識のためのマルチビュー変換器(Multiview Transformer for Video Recognition, MTV)」を基盤とし、マルチモーダル入力に適応したものである。最終提出物は、バックボーンのサイズや入力モダリティを異なる複数のマルチモーダルMTV(M&M)モデルをアンサンブルした構成となっている。本手法は、テストセットにおける行動クラスにおいて52.8%のTop-1精度を達成し、昨年の優勝エントリーよりも4.1%高い性能を実現した。