6ヶ月前

ビデオ処理

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Yichao Lu Wei Yu Sanja Fidler Steve Easterbrook

概要

解像度を保持するブロックを適用することは、動画予測において情報の保持を最大化するための一般的な手法であるが、その高いメモリ消費量が応用範囲を著しく制限している。本研究では、可逆構造を用いて双方向の全単射自動符号化器とその補完的な再帰的予測器を構築する、条件付き可逆ネットワーク（CrevNet）を提案する。本モデルは、特徴抽出過程において情報損失が理論的に保証されず、メモリ消費量が大幅に低減され、計算効率も高いという利点を有する。本モデルの軽量性により、メモリのボトルネックを気にすることなく3次元畳み込みを組み込むことが可能となり、短期的および長期的な時系列依存関係をより効果的に捉える能力が向上した。提案手法は、Moving MNIST、Traffic4cast、KITTIの各データセットにおいて、最先端の性能を達成した。さらに、自己教師学習によって学習した特徴量をKITTIデータセットにおける物体検出タスクに適用することで、本手法の転移可能性を実証した。得られた優れた結果から、CrevNetが下流タスクをガイドするための生成的事前学習戦略としての潜在的可能性が示唆される。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

ビデオ処理

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Yichao Lu Wei Yu Sanja Fidler Steve Easterbrook

概要

解像度を保持するブロックを適用することは、動画予測において情報の保持を最大化するための一般的な手法であるが、その高いメモリ消費量が応用範囲を著しく制限している。本研究では、可逆構造を用いて双方向の全単射自動符号化器とその補完的な再帰的予測器を構築する、条件付き可逆ネットワーク（CrevNet）を提案する。本モデルは、特徴抽出過程において情報損失が理論的に保証されず、メモリ消費量が大幅に低減され、計算効率も高いという利点を有する。本モデルの軽量性により、メモリのボトルネックを気にすることなく3次元畳み込みを組み込むことが可能となり、短期的および長期的な時系列依存関係をより効果的に捉える能力が向上した。提案手法は、Moving MNIST、Traffic4cast、KITTIの各データセットにおいて、最先端の性能を達成した。さらに、自己教師学習によって学習した特徴量をKITTIデータセットにおける物体検出タスクに適用することで、本手法の転移可能性を実証した。得られた優れた結果から、CrevNetが下流タスクをガイドするための生成的事前学習戦略としての潜在的可能性が示唆される。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています