12日前
参照動画オブジェクトセグメンテーションにおける意味的アライメントを用いたマルチレベル表現学習
{Jianbing Shen, Ling Shao, Xingping Dong, Dongming Wu}

要約
参照動画オブジェクトセグメンテーション(RVOS)は、言語クエリに従って動画内のオブジェクトを特定する挑戦的な言語誘導型動画グランドイングタスクであり、オブジェクト予測のために動画コンテンツと言語クエリの両方の意味情報を包括的に理解する必要がある。しかし、従来の手法はフレームベースの空間的粒度でマルチモーダル融合を採用している。このアプローチには視覚表現の限界があり、視覚と言語の不一致を引き起こしやすく、劣ったセグメンテーション結果をもたらすリスクがある。これを解決するために、本研究では新たな多段階表現学習アプローチを提案する。このアプローチは動画コンテンツの内在的な構造を活用し、より特徴的な視覚埋め込み(visual embedding)を提供することで、視覚と言語の意味的整合をより効果的に実現する。具体的には、視覚的粒度の観点から異なる視覚的手がかりを埋め込む。すなわち、動画レベルにおける複数フレームの長時間情報を、フレームレベルにおけるフレーム内空間的意味、およびオブジェクトレベルにおける強化されたオブジェクト意識型特徴事前知識(feature prior)を含む。強力な多段階視覚埋め込みと、丁寧に設計された動的整合機構を組み合わせることで、本モデルは高精度な動画オブジェクトセグメンテーションに向けた堅牢な表現を生成できる。Refer-DAVIS_17 および Refer-YouTube-VOS における広範な実験の結果、本モデルはセグメンテーション精度および推論速度の両面で優れた性能を達成した。