11 天前

RefVOS:关于视频对象分割中指代表达的深入探讨

Miriam Bellver, Carles Ventura, Carina Silberer, Ioannis Kazakos, Jordi Torres, Xavier Giro-i-Nieto
RefVOS:关于视频对象分割中指代表达的深入探讨
摘要

基于语言描述的视频目标分割(语言引导的VOS)任务,旨在给定一个语言短语和一段视频时,生成该短语所指对象的二值掩码。本文指出,当前用于该任务的主流基准数据集主要由简单案例构成,其中被指对象可通过简单短语即可识别。为此,我们提出了一种新的分类方法,将DAVIS-2017和Actor-Action数据集中的语言描述(Referring Expressions, REs)划分为“简单”与“非简单”两类,并对非简单REs进一步标注了七个语义类别。基于这一新标注数据,我们对一种新型神经网络模型RefVOS进行了分析。该模型在语言引导图像分割任务中取得了具有竞争力的性能,在语言引导视频目标分割任务中达到了当前最优水平。研究结果表明,该任务的主要挑战在于对运动动态及静态动作的理解。

RefVOS:关于视频对象分割中指代表达的深入探讨 | 最新论文 | HyperAI超神经