
要約
フレーム間の動き情報を正確に予測することは、動画予測タスクにおいて重要な役割を果たす。本論文では、予測ユニットの時系列受容場を拡大することにより、信頼性の高いフレーム間動き情報を捉えるための「動き意識型ユニット(Motion-Aware Unit: MAU)」を提案する。MAUは、注目モジュール(attention module)と融合モジュール(fusion module)の2つのモジュールから構成される。注目モジュールは、現在の空間状態と過去の空間状態との相関に基づいて注目マップを学習することを目的としている。学習された注目マップを基に、過去の時系列状態が統合され、拡張された動き情報(Augmented Motion Information: AMI)が生成される。これにより、予測ユニットはより広い受容場からより豊かな時系列的動態を捉えることができる。次に、融合モジュールにより、拡張された動き情報(AMI)と現在の外観情報(現在の空間状態)が統合され、最終的な予測フレームが生成される。MAUの計算負荷は比較的低く、他の予測モデルへの適用も容易である。さらに、エンコーダおよびデコーダに情報再想起機構(information recalling scheme)を導入することで、予測結果の視覚的詳細の保持を支援している。MAUは、動画予測および早期行動認識の両タスクにおいて評価された。実験結果から、MAUは両タスクにおいて最先端の手法を上回る性能を示した。