
摘要
深度学习方法在行人检测方面取得了巨大成功,这得益于其从原始像素中学习特征的能力。然而,这些方法主要捕获中层表示,如行人的姿态,但在处理具有较大歧义性的正样本和难负样本时容易混淆,例如在某些视角下,“树干”或“电线杆”的形状和外观与行人相似。这种歧义可以通过高层表示来区分。为此,本研究通过联合优化行人检测与语义任务(包括行人属性(如“背背包”)和场景属性(如“道路”、“树木”和“水平面”)),提出了一种新的深度模型,该模型可以从多个任务和多个数据源中学习高层特征。为了避免对场景属性进行昂贵的标注,我们从现有的场景分割数据集中转移属性信息到行人数据集。由于不同的任务有不同的收敛速度,不同数据集的数据分布也不同,因此精心设计了一个多任务目标函数以协调各任务并减少数据集之间的差异。该目标函数中的任务重要性系数和网络参数可以迭代估计。广泛的评估表明,所提出的 方法在具有挑战性的Caltech和ETH数据集上优于现有最先进方法,在这两个数据集上分别将先前深度模型的漏检率降低了17%和5.5%。