6ヶ月前

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Jiahui Wang Zhenyou Wang Shanna Zhuang Hui Wang

概要

時系列畳み込みは、アクションセグメンテーションにおいて従来のパラダイムとして広く用いられてきた。これは畳み込み層の増加によって長距離の受容野を拡大する手法であるが、深層化が進むにつれてフレーム認識に不可欠な局所情報の損失が生じるという問題がある。本稿では、上記の課題を解決するため、新たなエンコーダ・デコーダ構造である「クロス強化トランスフォーマー（Cross-Enhancement Transformer）」を提案する。本手法は、相互作用型の自己注意機構（interactive self-attention mechanism）を活用し、時系列構造表現の有効な学習を可能にする。具体的には、エンコーダの各層で得られた畳み込み特徴マップを、デコーダで自己注意によって生成された特徴群と連結する。これにより、フレーム単位のアクション認識において、局所情報とグローバル情報を同時に活用できる。さらに、過剰なセグメンテーション誤差を罰則する新たな損失関数を提案し、学習プロセスの安定性と精度を向上させた。実験の結果、本フレームワークは、50Salads、Georgia Tech Egocentric Activities、Breakfastの3つの難易度の高いデータセットにおいて、最先端の性能を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Jiahui Wang Zhenyou Wang Shanna Zhuang Hui Wang

概要

時系列畳み込みは、アクションセグメンテーションにおいて従来のパラダイムとして広く用いられてきた。これは畳み込み層の増加によって長距離の受容野を拡大する手法であるが、深層化が進むにつれてフレーム認識に不可欠な局所情報の損失が生じるという問題がある。本稿では、上記の課題を解決するため、新たなエンコーダ・デコーダ構造である「クロス強化トランスフォーマー（Cross-Enhancement Transformer）」を提案する。本手法は、相互作用型の自己注意機構（interactive self-attention mechanism）を活用し、時系列構造表現の有効な学習を可能にする。具体的には、エンコーダの各層で得られた畳み込み特徴マップを、デコーダで自己注意によって生成された特徴群と連結する。これにより、フレーム単位のアクション認識において、局所情報とグローバル情報を同時に活用できる。さらに、過剰なセグメンテーション誤差を罰則する新たな損失関数を提案し、学習プロセスの安定性と精度を向上させた。実験の結果、本フレームワークは、50Salads、Georgia Tech Egocentric Activities、Breakfastの3つの難易度の高いデータセットにおいて、最先端の性能を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

アクションセグメンテーションのためのクロス強化トランスフォーマー | 記事 | HyperAI超神経