2ヶ月前

静的運動知覚と階層的な運動知覚の分離を用いた参照動画セグメンテーション

Shuting He; Henghui Ding
静的運動知覚と階層的な運動知覚の分離を用いた参照動画セグメンテーション
要約

参照動画セグメンテーションは、自然言語表現を用いて物体を識別し、分割する技術であり、しばしば運動の手がかりに重点を置きます。従来の研究では、文章全体を扱い、直接動画レベルで識別を行っていました。これにより、静止画像レベルの手がかりと時間的な運動の手がかりが混ざり合ってしまう問題がありました。しかし、静止画像レベルの特徴量は文章中の運動手がかりを十分に理解できず、静止した手がかりは時間的な認識にとって重要ではありません。実際には、静止した手がかりが運動手がかりを上回ることで、時間的な認識を妨げることがあります。本研究では、動画レベルでの参照表現理解を静止認識と運動認識に分離し、特に時間的な理解の向上に焦点を当てることを提案します。まず、表現分離モジュール(expression-decoupling module)を導入して、静止手がかりと運動手がかりがそれぞれ異なる役割を果たすようにし、文章埋め込み(sentence embeddings)による運動手がかりの見落とし問題を軽減します。次に、階層的な運動認識モジュール(hierarchical motion perception module)を提案して、異なる時間スケールにおいて効果的に時間を捉える情報を取得します。さらに、視覚的に類似した物体の動きを見分けるために対照学習(contrastive learning)を利用します。これらの貢献により、5つのデータセットにおいて最先端の性能を達成しており、「MeViS」データセットでは特に困難な課題に対して $\textbf{9.2\%}$ の $\mathcal{J\&F}$ 改善率を得ています。コードは https://github.com/heshuting555/DsHmp で公開されています。