11日前

LoSh:参照動画オブジェクトセグメンテーションのためのロングショートテキスト共同予測ネットワーク

Linfeng Yuan, Miaojing Shi, Zijie Yue, Qijun Chen
LoSh:参照動画オブジェクトセグメンテーションのためのロングショートテキスト共同予測ネットワーク
要約

参照動画オブジェクトセグメンテーション(Referring Video Object Segmentation: RVOS)は、動画クリップ内で与えられたテキスト表現によって指されるターゲットインスタンスをセグメンテーションすることを目的としている。通常、テキスト表現にはインスタンスの外見、動作、および他のオブジェクトとの関係性といった複雑な記述が含まれる。そのため、RVOSモデルが動画内でこれらの属性をすべて正確に捉えるのは極めて困難であり、実際にはモデルはしばしばインスタンスの動作や関係性に関連する視覚的特徴に偏りがちである。その結果、ターゲットインスタンスのマスク予測が部分的あるいは誤ったものとなってしまうことがある。本研究では、元の長文テキスト表現から「主語中心の短文表現」を抽出することでこの問題に取り組む。この短文表現はターゲットインスタンスの外見に関する情報のみを保持するため、モデルがインスタンスの外見に注目するように誘導できる。我々は、モデルに長文と短文の両方のテキスト表現を用いて同時予測を行うようにし、 joint 特徴間の相互作用を実現するため「長文-短文クロスアテンションモジュール」を導入するとともに、予測結果の整合性を制御するため「長文-短文予測交差損失(long-short predictions intersection loss)」を設計した。これにより、言語的表現の質の向上が得られるだけでなく、時間的に隣接するフレームとの視覚的一貫性を強化するため、光流(optical flow)を用いてアノテーションフレームとその時間的隣接フレーム間の視覚特徴をワープする「前向き-後向き視覚的一貫性損失(forward-backward visual consistency loss)」も提案している。本手法は、2つの最先端のパイプラインをベースに構築しており、A2D-Sentences、Refer-YouTube-VOS、JHMDB-Sentences、Refer-DAVIS17の4つのベンチマークデータセット上で広範な実験を行った結果、顕著な性能向上が確認された。実装コードは以下のGitHubリポジトリで公開されている: https://github.com/LinfengYuan1997/Losh

LoSh:参照動画オブジェクトセグメンテーションのためのロングショートテキスト共同予測ネットワーク | 最新論文 | HyperAI超神経