HyperAIHyperAI

Command Palette

Search for a command to run...

深層3D CNNの時空間エントロピーを最大化することで効率的な動画認識を実現する

Junyan Wang Zhenhong Sun Yichen Qian Dong Gong Xiuyu Sun Ming Lin Maurice Pagnucco Yang Song

概要

3D畳み込みニューラルネットワーク(CNN)は、動画認識において主流の手法として広く用いられている。時間情報を捉えるために、3D畳み込みは時系列方向に計算されるが、これにより計算量は立方的に増大し、高コストとなる。計算コストの低減を図るため、従来の手法では手動で設計された3D/2D CNN構造を用い、近似処理を行うか、自動探索を行うが、いずれもモデルの表現力の低下や学習に時間がかかるといった課題を伴う。本研究では、モデルの複雑さを考慮した3D CNN向けに、訓練を伴わない新たな学習フリーな神経ネットワーク構造探索アプローチを提案する。3D CNNの表現力の効率的な評価のため、3D CNNを情報システムとして定式化し、最大エントロピー原理に基づいて解析的なエントロピースコアを導出する。特に、空間次元と時間次元における視覚情報の不均一性を扱うため、特徴マップサイズとカーネルサイズの時間方向における相関関係を動的に活用する修正係数を導入した、空間時間エントロピースコア(STEntr-Score)を提案する。このSTEntr-Scoreを、ネットワークパラメータの訓練を伴わずに進化的アルゴリズムによって最大化することで、計算量の制約下で高効率かつ高表現力を持つ3D CNN構造、すなわちエントロピーに基づく3D CNN(E3Dファミリー)を効率的に探索可能となる。Something-Something V1・V2およびKinetics400における広範な実験により、E3Dファミリーが計算効率を大幅に向上させつつ、最先端の性能を達成することが実証された。コードは、https://github.com/alibaba/lightweight-neural-architecture-search で公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています