HyperAIHyperAI

Command Palette

Search for a command to run...

M&M Mix:マルチモーダル・マルチビュー変換器アンサンブル

Xuehan Xiong Anurag Arnab Arsha Nagrani Cordelia Schmid

概要

本報告では、2022年Epic-Kitchens行動認識チャレンジにおける優勝ソリューションのアプローチについて説明する。本アプローチは、我々の最近の研究成果である「動画認識のためのマルチビュー変換器(Multiview Transformer for Video Recognition, MTV)」を基盤とし、マルチモーダル入力に適応したものである。最終提出物は、バックボーンのサイズや入力モダリティを異なる複数のマルチモーダルMTV(M&M)モデルをアンサンブルした構成となっている。本手法は、テストセットにおける行動クラスにおいて52.8%のTop-1精度を達成し、昨年の優勝エントリーよりも4.1%高い性能を実現した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています