17 天前

基于中层视觉表征的物体位姿估计

Negar Nejatishahidin, Pooya Fayyazsanavi, Jana Kosecka

摘要

本文提出了一种新型的姿态估计模型，适用于能够有效迁移到先前未见过环境中的物体类别。传统的姿态估计深度卷积神经网络（CNN）通常在专门针对物体检测、姿态估计或三维重建任务构建的数据集上进行训练与评估，这类方法往往需要大量标注数据。在本研究中，我们提出了一种仅需少量数据即可训练的姿态估计模型，其基础建立在通用的中层表征之上（如表面法线估计与重光照处理）\cite{taskonomy2018}。这些中层表征在大规模数据集上进行预训练，无需依赖姿态或物体类别标注。随后，通过一个小型CNN神经网络对预测结果进行优化，该网络利用物体掩码（object masks）与轮廓检索（silhouette retrieval）信息提升精度。实验结果表明，该方法在Pix3D数据集\cite{pix3d}上取得了优异性能，在仅使用25%训练数据的情况下，相比现有模型实现了接近35%的性能提升。我们进一步验证了该方法在泛化能力及向新环境迁移方面的显著优势。为此，我们在具有挑战性的主动视觉数据集（Active Vision Dataset）\cite{Ammirato2017ADF}上，针对常见家具类别构建了一个新的姿态估计基准，并对在Pix3D数据集上训练的模型进行了评估。