6ヶ月前

ビデオ理解

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Heeseung Kwon Manjin Kim Suha Kwak Minsu Cho

概要

動きは動画の理解において重要な役割を果たしており、現在の最先端の動画分類用ニューラルモデルの多くは、別途の市販手法によって抽出された光流（optical flow）を用いて動き情報を組み込んでいる。しかし、フレーム単位の光流の計算は非常に計算量が多いため、動き情報の統合は動画理解における主要な計算上のボトルネックのままである。本研究では、外部から取得する高負荷な光流計算を、ネットワーク内部で軽量に学習可能な動き特徴の抽出に置き換える手法を提案する。我々は、任意のニューラルネットワークの中間に挿入可能な学習可能なニューラルモジュール「MotionSqueeze」を設計し、フレーム間の対応関係を学習してそれらを動き特徴に変換する。得られた動き特徴は、次の下流層に直接入力され、より正確な予測を実現する。実験により、本手法は4つの標準的な動作認識ベンチマークにおいて顕著な性能向上を示し、追加コストは極めて小さい。特にSomething-Something-V1およびV2データセットにおいて、既存の最先端手法を上回る結果を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

ビデオ理解

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Heeseung Kwon Manjin Kim Suha Kwak Minsu Cho

概要

動きは動画の理解において重要な役割を果たしており、現在の最先端の動画分類用ニューラルモデルの多くは、別途の市販手法によって抽出された光流（optical flow）を用いて動き情報を組み込んでいる。しかし、フレーム単位の光流の計算は非常に計算量が多いため、動き情報の統合は動画理解における主要な計算上のボトルネックのままである。本研究では、外部から取得する高負荷な光流計算を、ネットワーク内部で軽量に学習可能な動き特徴の抽出に置き換える手法を提案する。我々は、任意のニューラルネットワークの中間に挿入可能な学習可能なニューラルモジュール「MotionSqueeze」を設計し、フレーム間の対応関係を学習してそれらを動き特徴に変換する。得られた動き特徴は、次の下流層に直接入力され、より正確な予測を実現する。実験により、本手法は4つの標準的な動作認識ベンチマークにおいて顕著な性能向上を示し、追加コストは極めて小さい。特にSomething-Something-V1およびV2データセットにおいて、既存の最先端手法を上回る結果を達成した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

MotionSqueeze：ビデオ理解のためのニューラルモーション特徴学習 | 記事 | HyperAI超神経