2 个月前
使用非对称注释的实时联合语义分割和深度估计
Vladimir Nekrasov; Thanuja Dharmasiri; Andrew Spek; Tom Drummond; Chunhua Shen; Ian Reid

摘要
在机器人中部署深度学习模型作为感知信息提取器是一项艰巨的任务,即使使用通用的GPU卡也是如此。本文旨在解决其中三个最突出的问题,即:i)使单一模型能够同时执行多个任务(在本研究中,我们考虑深度估计和语义分割对于获取场景的几何和语义理解至关重要),ii)实现实时处理,以及iii)使用具有不同模态注释数量不对称的数据集。为了解决前两个问题,我们对最近提出的一种实时语义分割网络进行了改进,进一步减少了浮点运算的数量。针对第三个问题,我们在假设可以访问到一个强大的“教师”网络的前提下,采用了一种基于硬知识蒸馏的简单解决方案。我们展示了如何轻松扩展我们的系统以同时处理更多任务和更多数据集,并且使用单个模型即可在室内和室外环境中进行深度估计和分割。定量结果显示,我们的方法在一次前向传递仅需13毫秒和6.5 GFLOPs的情况下,达到了与当前最先进的方法相当或更好的性能(输入分辨率为640x480)。这种高效性使我们可以直接将网络的原始预测结果集成到SemanticFusion框架中,用于场景的密集3D语义重建。