17日前
フレーム間関連性の関係を掘り起こすことで動画意味分割を実現する
Guolei Sun, Yun Liu, Hao Tang, Ajad Chhatkuli, Le Zhang, Luc Van Gool

要約
動画セマンティックセグメンテーション(VSS)の本質は、時系列情報をどのように活用して予測を行うかにある。これまでの研究は、オプティカルフローやアテンションなど、フレーム間の類似性(アフィニティ)を計算するための新しい技術の開発に主眼を置いてきた。一方、本論文では、このようなアプローチとは異なる視点から、フレーム間アフィニティ同士の関係性を掘り下げることで、より効果的な時系列情報の集約を実現することを目指す。本研究では、アフィニティ間の関係性を「単一スケールにおける内在的相関」と「マルチスケール間の関係性」という二つの側面から検討する。伝統的な特徴処理の知見を踏まえ、単一スケールでのアフィニティ精緻化を実現する「Single-scale Affinity Refinement(SAR)」およびマルチスケールでのアフィニティ集約を実現する「Multi-scale Affinity Aggregation(MAA)」を提案する。MAAを実行可能にするために、アフィニティ計算時に異なるスケールにおいて一貫性のある参照トークンのサブセットを選択する「Selective Token Masking(STM)」戦略も提案しており、これにより計算効率の向上も達成している。最終的に、SARおよびMAAによって強化されたフレーム間アフィニティを用いて、時系列情報を適応的に集約する。実験の結果、提案手法は最先端のVSS手法と比較しても優れた性能を示した。コードは公開されており、GitHubにて利用可能である:https://github.com/GuoleiSun/VSS-MRCFA