15日前

Global2Local:動画行動セグメンテーションにおける効率的な構造探索

Shang-Hua Gao, Qi Han, Zhong-Yu Li, Pai Peng, Liang Wang, Ming-Ming Cheng
Global2Local:動画行動セグメンテーションにおける効率的な構造探索
要約

モデルの時間的受容 field は、アクションセグメンテーションにおいて重要な役割を果たす。大きな受容 field は動画クリップ間の長期的な関係を捉えるのに有効である一方、小さな受容 field は局所的な詳細を捉えるのに有利である。従来の手法では、各層において人為的に設計された受容 field を用いてモデルを構築していた。では、人為的なパターンに代わって、効果的に受容 field の組み合わせを探索することは可能だろうか?この問いに答えるために、我々はグローバルからローカルへの探索スキームを用いてより優れた受容 field の組み合わせを探索する手法を提案する。本探索スキームは、粗い組み合わせを探索するグローバル探索と、さらに精密な受容 field のパターンを獲得するローカル探索の両方を活用する。グローバル探索は、人間が設計したパターンにとらわれず、新たな粗い組み合わせを探索する。このグローバル探索の上に、期待値を導入した反復的ローカル探索スキームを提案することで、組み合わせの精密化を効果的に実現する。本提案するグローバルからローカルへの探索フレームワークは、既存のアクションセグメンテーション手法に簡単に統合可能であり、最先端の性能を達成することが可能である。

Global2Local:動画行動セグメンテーションにおける効率的な構造探索 | 最新論文 | HyperAI超神経