8ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Kazakos Evangelos ; Nagrani Arsha ; Zisserman Andrew ; Damen Dima

概要

私たちはエゴセントリック行動認識のための多モーダル融合に焦点を当て、新しい多モーダル時系列結合アーキテクチャを提案します。これは、時間的なオフセット範囲内でモーダルを組み合わせる技術です。私たちはRGB、フロー、オーディオの3つのモーダルを使用してこのアーキテクチャを訓練し、中間レベルでの融合と融合表現のスパースな時間サンプリングを組み合わせます。これまでの研究とは異なり、時間集約を行う前にモーダルが融合され、時間軸上で共有されるモーダルと融合の重みを使用します。私たちが提案するアーキテクチャはエンドツーエンドで訓練され、個々のモーダルや後期融合よりも優れた性能を発揮します。また、クラスごとの分析を通じてエゴセントリックビジョンにおいてオーディオの重要性を示しています。これは行動識別だけでなく対象物との相互作用も特定するのに役立ちます。私たちの手法は最大規模のエゴセントリックデータセットであるEPIC-Kitchensにおいて、公開リーダーボード上のすべての指標で既存手法を超える最先端の結果を達成しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Kazakos Evangelos ; Nagrani Arsha ; Zisserman Andrew ; Damen Dima

概要

私たちはエゴセントリック行動認識のための多モーダル融合に焦点を当て、新しい多モーダル時系列結合アーキテクチャを提案します。これは、時間的なオフセット範囲内でモーダルを組み合わせる技術です。私たちはRGB、フロー、オーディオの3つのモーダルを使用してこのアーキテクチャを訓練し、中間レベルでの融合と融合表現のスパースな時間サンプリングを組み合わせます。これまでの研究とは異なり、時間集約を行う前にモーダルが融合され、時間軸上で共有されるモーダルと融合の重みを使用します。私たちが提案するアーキテクチャはエンドツーエンドで訓練され、個々のモーダルや後期融合よりも優れた性能を発揮します。また、クラスごとの分析を通じてエゴセントリックビジョンにおいてオーディオの重要性を示しています。これは行動識別だけでなく対象物との相互作用も特定するのに役立ちます。私たちの手法は最大規模のエゴセントリックデータセットであるEPIC-Kitchensにおいて、公開リーダーボード上のすべての指標で既存手法を超える最先端の結果を達成しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています