9日前

VarNet:教師なし動画予測における変化の探索

{Jing Ye, Shice Liu, Qiankun Tang, Yiming Zeng, Yu Hu, Beibei Jin}
要約

自然シーンにおける複雑さと多様性のため、教師なし動画予測は非常に困難なタスクである。従来の手法では、ピクセルまたはオプティカルフローを直接予測する方法が採用されてきたが、いずれもぼやけの問題を抱えているか、追加の仮定を必要としている。本研究では、動画フレーム予測の鍵となるのは、物体の運動や周囲環境の変化を含むフレーム間の変化を正確に捉えることであると指摘する。これに基づき、隣接フレーム間の変化を直接予測し、現在のフレームと融合して将来のフレームを生成する教師なし動画予測フレームワーク「Variation Network(VarNet)」を提案する。さらに、各ピクセルの変化の振幅に応じて適応的に重みを再調整する損失関数の重み付け機構を導入し、各ピクセルに公正な影響を与えることを実現した。本手法は、KTHおよびKITTIという2つの先進的なデータセット上で、短期および長期動画予測の広範な実験を実施し、PSNRおよびSSIMの2つの評価指標を用いて検証した。KTHデータセットでは、VarNetは最新の手法に対してPSNRで最大11.9%、SSIMで最大9.5%の性能向上を達成した。KITTIデータセットでは、PSNRで最大55.1%、SSIMで最大15.9%の性能向上が確認された。さらに、KITTIデータセットで学習したモデルを、学習時に使用していないCalTech Pedestrianデータセットでテストすることで、本モデルの汎化能力が他の最先端手法を上回ることを実証した。ソースコードおよび動画は、https://github.com/jinbeibei/VarNet にて公開されている。