HyperAIHyperAI

Command Palette

Search for a command to run...

EPIC-Fusion: エゴセントリックアクション認識のための音声-視覚時間結合

Kazakos Evangelos ; Nagrani Arsha ; Zisserman Andrew ; Damen Dima

概要

私たちはエゴセントリック行動認識のための多モーダル融合に焦点を当て、新しい多モーダル時系列結合アーキテクチャを提案します。これは、時間的なオフセット範囲内でモーダルを組み合わせる技術です。私たちはRGB、フロー、オーディオの3つのモーダルを使用してこのアーキテクチャを訓練し、中間レベルでの融合と融合表現のスパースな時間サンプリングを組み合わせます。これまでの研究とは異なり、時間集約を行う前にモーダルが融合され、時間軸上で共有されるモーダルと融合の重みを使用します。私たちが提案するアーキテクチャはエンドツーエンドで訓練され、個々のモーダルや後期融合よりも優れた性能を発揮します。また、クラスごとの分析を通じてエゴセントリックビジョンにおいてオーディオの重要性を示しています。これは行動識別だけでなく対象物との相互作用も特定するのに役立ちます。私たちの手法は最大規模のエゴセントリックデータセットであるEPIC-Kitchensにおいて、公開リーダーボード上のすべての指標で既存手法を超える最先端の結果を達成しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
EPIC-Fusion: エゴセントリックアクション認識のための音声-視覚時間結合 | 記事 | HyperAI超神経