
摘要
机器人操控物体的能力在很大程度上依赖于其视觉感知能力。在场景杂乱且物体多样性高的领域中,现有大多数方法依赖于大规模标注数据集,这些数据集需人工逐帧精细标注,以训练具备较强泛化能力的模型。然而,模型在部署后面临对未见物体的泛化挑战,这意味着模型必须能够随着所处环境的变化而持续演化。为应对这一问题,我们提出一种新颖的框架,将半监督学习(Semi-Supervised Learning, SSL)与通过交互学习(Learning Through Interaction, LTI)相结合,使模型能够通过观察场景的动态变化进行学习,并在存在时间间隔的情况下依然利用视觉一致性信息,而无需依赖预先精心标注的交互序列数据。在此框架下,我们的方法通过自监督机制有效利用部分标注数据,并借助从无标签静态图像中生成的伪序列来引入时间上下文信息。我们在两个主流基准测试——ARMBench mix-object-tote 和 OCID 上对所提方法进行了验证,结果表明其性能达到当前最优水平。特别地,在 ARMBench 基准上,我们实现了 $\text{AP}{50}$ 达到 $86.37$,相比现有方法提升近 $20\%$;在极端低标注率场景下,仅使用 $1\%$ 的标注数据,即获得 $\text{AP}{50} = 84.89$ 的优异表现,远超 ARMBench 全标注版本中 $72$ 的基准结果,充分展示了该方法在极低标注成本下的强大泛化能力与数据效率。