9日前

動画予測：メモリアライメント学習を用いた長期運動コンテキストの想起

Sangmin Lee, Hak Gu Kim, Dae Hwi Choi, Hyung-Il Kim, Yong Man Ro

要約

本研究は、未来フレーム予測における長期的な運動文脈の取り扱い問題に取り組んでいる。正確な未来予測を行うためには、入力となる運動（例：脚の動き）がどの長期的な運動文脈（例：歩行や走行）に属するかを捉えることが不可欠である。長期的な運動文脈を扱う際に生じる課題は以下の2点である：(i) 動的変化が限定的な入力シーケンスに対して、自然に長期的な運動文脈を予測する方法、(ii) 高次元性（例：複雑な運動）を持つ運動文脈を正確に予測する方法。これらの課題に対処するため、本研究では新たな運動文脈に配慮した動画予測手法を提案する。課題(i)を解決するため、メモリアライメント学習を導入した長期運動文脈メモリ（LMC-Memory）を提案する。このメモリアライメント学習により、長期的な運動文脈をメモリに保存し、動的変化が限られたシーケンスとも適切に一致させることが可能となる。その結果、制限された入力シーケンスからも長期的な文脈を効果的に復元できる。さらに課題(ii)に対処するため、局所的な運動文脈（すなわち低次元の動的特性）を個別に保存し、入力の各局所部分に対して適切な局所文脈を個別に復元するための「メモリクエリ分解」を提案する。これにより、メモリのアライメント効果が向上する。実験結果から、本手法は他の高度なRNNベースの手法を上回り、特に長期予測条件下において顕著な性能向上が確認された。さらに、アブレーションスタディおよびメモリ特徴分析を通じて、提案するネットワーク設計の有効性を検証した。本研究のソースコードは公開されている。