
摘要
在许多视频处理任务中,利用大规模图像数据集是一种常见的策略,因为图像数据更为丰富,有助于实现全面的知识迁移。一种典型的从静态图像模拟视频的方法是应用空间变换,如仿射变换和样条变形(spline warping),以生成模仿时间进程的序列。然而,在诸如视频显著目标检测等任务中,外观和运动线索都至关重要,这些基本的图像到视频技术无法生成捕捉每个物体独立运动特性的逼真光流。在本研究中,我们展示了图像到视频扩散模型能够在理解图像组件之间的上下文关系的同时,生成静态图像的逼真变换。这种能力使得模型能够生成合理的光流,既保留了语义完整性又反映了场景元素的独立运动。通过这种方式增强单个图像,我们创建了大规模的图像-光流对,显著提升了模型训练的效果。我们的方法在所有公开基准数据集上均达到了最先进的性能,超越了现有的方法。