2 个月前
从静态图像中学习视频对象分割
Anna Khoreva; Federico Perazzi; Rodrigo Benenson; Bernt Schiele; Alexander Sorkine-Hornung

摘要
受近期深度学习在实例分割和目标跟踪方面取得的进展启发,我们引入了视频对象分割问题作为引导实例分割的概念。我们的模型以逐帧的方式进行处理,由前一帧的输出引导,指向下一帧中的感兴趣对象。我们证明了仅使用静态图像训练的卷积神经网络(convnet)可以实现视频中高精度的对象分割。我们方法的关键在于离线和在线学习策略的结合,前者用于从前一帧估计结果中生成更精细的掩模,后者则允许捕捉特定对象实例的外观特征。我们的方法可以处理不同类型的输入注释:边界框和分割区域,同时还可以整合多个已标注的帧,使得该系统适用于多种应用场景。我们在三个不同的数据集上获得了具有竞争力的结果,这些结果独立于输入注释的类型。