11日前

RefVOS:動画像オブジェクトセグメンテーションにおける参照表現の再検討

Miriam Bellver, Carles Ventura, Carina Silberer, Ioannis Kazakos, Jordi Torres, Xavier Giro-i-Nieto
RefVOS:動画像オブジェクトセグメンテーションにおける参照表現の再検討
要約

言語表現を用いた動画オブジェクトセグメンテーション(言語誘導型VOS)の課題とは、与えられた言語表現と動画に対して、その表現が指すオブジェクトの二値マスクを生成することである。本研究では、従来のこのタスクに用いられるベンチマークが主に単純なケースで構成されており、単純な表現によって参照対象を識別可能な場合が多いため、評価の有効性に課題があると指摘する。この分析は、DAVIS-2017およびActor-Actionデータセットに含まれる言語表現を「単純な参照表現(trivial REs)」と「非単純な参照表現(non-trivial REs)」に分類し、非単純な参照表現については7つの意味的カテゴリにラベル付けされた新たな分類体系に基づいている。本研究では、このデータを活用して、言語誘導型画像セグメンテーションにおいて競争力のある性能を示す一方で、言語誘導型VOSにおいて最先端の結果を達成したニューラルネットワーク「RefVOS」の結果を分析した。その結果、このタスクの主な課題は、運動の理解および静的行動の解釈に起因していることが明らかになった。

RefVOS:動画像オブジェクトセグメンテーションにおける参照表現の再検討 | 最新論文 | HyperAI超神経