摘要

无监督视频对象分割旨在在没有任何外部指导的情况下检测视频中最显著的对象。显著对象通常表现出与背景不同的运动特征，近期的方法通过结合光流图中的运动线索和RGB图像中的外观线索来实现这一点。然而，由于光流图往往与分割掩码密切相关，网络在训练过程中可能会过度依赖运动线索，从而在面对混淆的运动线索时变得脆弱，导致预测结果不稳定。为了解决这一挑战，我们提出了一种新颖的“以运动为选项”的网络架构，该架构将运动线索视为可选组件而非必要条件。在训练过程中，我们随机地将RGB图像输入到运动编码器中而不是光流图，这隐性地减少了网络对运动线索的依赖。这种设计确保了运动编码器能够处理RGB图像和光流图两种类型的输入，并根据输入类型生成两个不同的预测结果。为了充分利用这一灵活性，我们在测试阶段引入了一种自适应输出选择算法，用于确定最优预测。

源 PDF 查看代码