1ヶ月前

折りたたみ再帰型ニューラルネットワークを用いた未来ビデオ予測

Marc Oliu; Javier Selva; Sergio Escalera
折りたたみ再帰型ニューラルネットワークを用いた未来ビデオ予測
要約

未来ビデオ予測は、最近注目を集めている不適切な(ill-posed)コンピュータビジョンの問題です。その主要な課題は、ビデオコンテンツの高い変動性、時間的な誤差の伝播、および将来フレームの非特異性(non-specificity)にあります。過去のフレームシーケンスが与えられた場合、可能性のある未来は連続的な分布を示します。本研究では、双射ゲートリカレントユニット(bijective Gated Recurrent Units)を導入し、GRU層の入力と出力との間で二重マッピングを行います。これにより、エンコーダーとデコーダー間で状態を共有する再帰的自己符号化器(recurrent auto-encoders)が可能となり、シーケンス表現を階層化し、容量問題の防止に役立ちます。我々はこのトポロジーを使用することで、入力エンコーディングにはエンコーダーのみ、予測にはデコーダーのみを適用すればよいことを示します。これにより計算コストが削減され、フレームシーケンスを生成する際に予測結果を再エンコードする必要がなくなり、誤差の伝播が緩和されます。さらに、既に訓練されたモデルから層を取り除くことが可能であり、各層が果たす役割について洞察を得ることができるとともに、モデルの説明性が向上します。我々は3つのビデオデータセットでアプローチを評価しました。MMNISTとUCF101において最新の予測結果を上回り、KTHでは最良のスコアを持つ手法よりも2倍から3倍少ないメモリ使用量と計算コストで競争力のある結果を得ました。