2 个月前

统一的图像和视频显著性建模

Richard Droste; Jianbo Jiao; J. Alison Noble
统一的图像和视频显著性建模
摘要

在近期的计算机视觉文献中,图像和视频的视觉显著性建模被视为两个独立的任务。尽管图像显著性建模是一个研究较为成熟的问题,且在SALICON和MIT300等基准上的进展逐渐放缓,但视频显著性模型在最近的DHF1K基准上表现出快速的进步。在此背景下,我们退一步思考:是否可以通过一个统一的模型来同时处理图像和视频的显著性建模,并实现相互促进?我们确定了图像和视频显著性数据之间以及不同视频显著性数据集之间的领域偏移(domain shift)是有效联合建模的关键挑战。为了解决这一问题,我们提出了四种新颖的领域适应技术——域自适应先验(Domain-Adaptive Priors)、域自适应融合(Domain-Adaptive Fusion)、域自适应平滑(Domain-Adaptive Smoothing)和旁路RNN(Bypass-RNN),以及改进的学习高斯先验公式。我们将这些技术集成到一个简单轻量级的编码器-RNN-解码器风格网络UNISAL中,并使用图像和视频显著性数据对其进行联合训练。我们在DHF1K、Hollywood-2和UCF-Sports等视频显著性数据集以及SALICON和MIT300等图像显著性数据集上评估了我们的方法。结果显示,UNISAL仅用一组参数便在所有视频显著性数据集上达到了最先进的性能,并且在图像显著性数据集上的表现也与当前最佳方法相当,尽管其运行速度更快且模型大小比所有竞争性的深度学习方法小5到20倍。我们还提供了回顾分析和消融研究,证实了领域偏移建模的重要性。代码可在https://github.com/rdroste/unisal 获取。