9日前

PredRNN:時空間予測学習のための再帰型ニューラルネットワーク

Yunbo Wang, Haixu Wu, Jianjin Zhang, Zhifeng Gao, Jianmin Wang, Philip S. Yu, Mingsheng Long
PredRNN:時空間予測学習のための再帰型ニューラルネットワーク
要約

時空間系列の予測学習は、過去の文脈から学習することで未来の画像を生成することを目的としており、視覚的動態は構成的なサブシステムによって学習可能なモジュール構造を持つとされている。本論文では、PredRNNと呼ばれる新たな再帰型ネットワークを提案し、その中で一対のメモリセルを明示的に分離し、ほぼ独立した遷移様式で動作させ、最終的に複雑な環境の統一的な表現を形成する。具体的には、LSTMの従来のメモリセルに加え、全層にわたって上下方向(ボトムアップおよびトップダウン)の両方へと伝播するジグザグ型のメモリフローを特徴としており、RNNの異なる階層で学習された視覚的動態間の通信を可能にする。また、メモリセルが重複した特徴を学習しないようにするためのメモリ分離損失(memory decoupling loss)を導入している。さらに、PredRNNが文脈フレームから長期的な動態を学習するよう強制する新しいカリキュラム学習戦略を提案し、この戦略は多くのシーケンス・トゥ・シーケンスモデルに一般化可能である。各構成要素の有効性を詳細なアブレーションスタディにより検証した結果、本手法は行動なしおよび行動条件付きの両方の予測学習シナリオにおいて、5つのデータセットで非常に競争力のある結果を達成することが示された。