2ヶ月前

EPIC-Fusion: エゴセントリックアクション認識のための音声-視覚時間結合

Kazakos, Evangelos ; Nagrani, Arsha ; Zisserman, Andrew ; Damen, Dima
EPIC-Fusion: エゴセントリックアクション認識のための音声-視覚時間結合
要約

私たちはエゴセントリック行動認識のための多モーダル融合に焦点を当て、新しい多モーダル時系列結合アーキテクチャを提案します。これは、時間的なオフセット範囲内でモーダルを組み合わせる技術です。私たちはRGB、フロー、オーディオの3つのモーダルを使用してこのアーキテクチャを訓練し、中間レベルでの融合と融合表現のスパースな時間サンプリングを組み合わせます。これまでの研究とは異なり、時間集約を行う前にモーダルが融合され、時間軸上で共有されるモーダルと融合の重みを使用します。私たちが提案するアーキテクチャはエンドツーエンドで訓練され、個々のモーダルや後期融合よりも優れた性能を発揮します。また、クラスごとの分析を通じてエゴセントリックビジョンにおいてオーディオの重要性を示しています。これは行動識別だけでなく対象物との相互作用も特定するのに役立ちます。私たちの手法は最大規模のエゴセントリックデータセットであるEPIC-Kitchensにおいて、公開リーダーボード上のすべての指標で既存手法を超える最先端の結果を達成しています。

EPIC-Fusion: エゴセントリックアクション認識のための音声-視覚時間結合 | 最新論文 | HyperAI超神経