2 个月前

利用时间一致性进行实时视频深度估计

Haokui Zhang; Chunhua Shen; Ying Li; Yuanzhouhan Cao; Yu Liu; Youliang Yan
利用时间一致性进行实时视频深度估计
摘要

近年来,通过利用深度卷积神经网络(CNN)的层次特征,静态图像的深度估计精度得到了显著提升。与静态图像相比,视频帧之间存在大量信息,可以被利用来提高深度估计性能。在本研究中,我们专注于从单目视频中探索时间信息以进行深度估计。具体而言,我们利用了卷积长短期记忆(Convolutional Long Short-Term Memory, CLSTM)的优势,并提出了一种新颖的空间-时间CLSTM(Spatial-Temporal Convolutional Long Short-Term Memory, ST-CLSTM)结构。我们的ST-CLSTM结构不仅能够捕捉空间特征,还能在几乎不增加计算成本的情况下捕捉连续视频帧之间的时序相关性和一致性。此外,为了保持估计深度帧之间的时间一致性,我们采用了生成对抗学习方案并设计了时间一致性损失函数。时间一致性损失函数与空间损失函数结合,以端到端的方式更新模型。通过利用时间信息,我们构建了一个实时运行且生成视觉效果良好的视频深度估计框架。此外,我们的方法具有灵活性,可以推广到大多数现有的深度估计框架中。代码可从以下链接获取:https://tinyurl.com/STCLSTM

利用时间一致性进行实时视频深度估计 | 最新论文 | HyperAI超神经