9日前

効率的な動画予測のための高精度グリッドキーポイント学習

Xiaojie Gao, Yueming Jin, Qi Dou, Chi-Wing Fu, Pheng-Ann Heng
効率的な動画予測のための高精度グリッドキーポイント学習
要約

動画予測手法は、訓練および実行の両過程において膨大な計算リソースを消費する傾向にあり、その中でもキーポイントベースのアプローチは、密な画像予測を軽量なキーポイント予測に簡素化することで、効率性の向上が期待されている。しかし、従来の手法ではキーポイントの位置が単に連続的な座標としてモデル化されるため、動画内の意味的に無視できる変動に起因するノイズが学習の安定性を損ない、結果として正確なキーポイント表現が得られにくくなるという問題がある。本論文では、長期的な効率的な動画予測に向け、ロバストかつ解釈可能な中間キーポイント表現を実現する新たなグリッドキーポイント学習フレームワークを提案する。本研究の主な技術的貢献は以下の2点である。第一に、提案するグリッド空間内の候補位置を飛び越える形でキーポイントを検出するとともに、意味のあるキーポイントが強固な代表能力を持つように促すための凝縮損失(condensation loss)を定式化した。第二に、検出されたグリッドキーポイントを2次元バイナリマップで表現し、離散的なグリッド空間内の要素を選択することで、確率的な挙動を用いたキーポイント位置の伝搬を提案した。これにより、長期予測におけるキーポイントの空間的構造を保持し、より高精度な未来フレーム生成を実現した。広範な実験により、本手法が最先端の確率的動画予測手法を上回る性能を発揮するとともに、計算リソースの使用量を98%以上削減できることを検証した。さらに、ロボット支援手術データセットを用いた実験においても、有望な結果が得られた。本研究のコードは、https://github.com/xjgaocs/Grid-Keypoint-Learning にて公開されている。