17日前

M&M Mix:マルチモーダル・マルチビュー変換器アンサンブル

Xuehan Xiong, Anurag Arnab, Arsha Nagrani, Cordelia Schmid
M&M Mix:マルチモーダル・マルチビュー変換器アンサンブル
要約

本報告では、2022年Epic-Kitchens行動認識チャレンジにおける優勝ソリューションのアプローチについて説明する。本アプローチは、我々の最近の研究成果である「動画認識のためのマルチビュー変換器(Multiview Transformer for Video Recognition, MTV)」を基盤とし、マルチモーダル入力に適応したものである。最終提出物は、バックボーンのサイズや入力モダリティを異なる複数のマルチモーダルMTV(M&M)モデルをアンサンブルした構成となっている。本手法は、テストセットにおける行動クラスにおいて52.8%のTop-1精度を達成し、昨年の優勝エントリーよりも4.1%高い性能を実現した。