6ヶ月前

概要

本報告では、2022年Epic-Kitchens行動認識チャレンジにおける優勝ソリューションのアプローチについて説明する。本アプローチは、我々の最近の研究成果である「動画認識のためのマルチビュー変換器（Multiview Transformer for Video Recognition, MTV）」を基盤とし、マルチモーダル入力に適応したものである。最終提出物は、バックボーンのサイズや入力モダリティを異なる複数のマルチモーダルMTV（M&M）モデルをアンサンブルした構成となっている。本手法は、テストセットにおける行動クラスにおいて52.8％のTop-1精度を達成し、昨年の優勝エントリーよりも4.1％高い性能を実現した。

ソースPDF