9日前

エイデティック3D LSTM:動画予測およびそれ以上のためのモデル

{Li Fei-Fei, Li-Jia Li, Ming-Hsuan Yang, Mingsheng Long, Yunbo Wang, Lu Jiang}
エイデティック3D LSTM:動画予測およびそれ以上のためのモデル
要約

時空間予測学習は、長年にわたり自己教師あり特徴学習法として有望視されてきたが、将来の動画予測を越えてその有効性を示すことは稀である。その理由は、短期間のフレーム依存性と長期的な高レベルな関係の両方に対して優れた表現を学習することが困難であるためである。本研究では、3D畳み込みをRNNに統合する新しいモデル、Eidetic 3D LSTM(E3D-LSTM)を提案する。このモデルは、RNNの局所的パーセプトロンに運動感知性を付与し、記憶セルがより優れた短期特徴を保持できるようにする3D-Convを内包している。長期的な関係の学習には、現在の記憶状態とその過去の記録との間にゲート制御型自己注意(self-attention)モジュールを介した相互作用を導入する。この記憶遷移メカニズムを「Eidetic(記憶的)」と呼ぶのは、長期間にわたる干渉があっても、複数の時系列にわたり記憶を効果的に想起できるためである。まず、E3D-LSTMネットワークを広く用いられる将来動画予測データセット上で評価し、最先端の性能を達成した。次に、E3D-LSTMネットワークが、限定的な動画フレームしか観測しない状況下で、何が起きているか、またはこれから何が起こるかを推定する早期行動認識(early activity recognition)タスクにおいても優れた性能を発揮することを示した。このタスクは動画予測とよく整合しており、行動の意図や傾向を捉えることが最先端の性能を達成する上で重要である。

エイデティック3D LSTM:動画予測およびそれ以上のためのモデル | 最新論文 | HyperAI超神経