8 个月前

摘要

近年来，行人检测领域的研究越来越多地关注利用不同传感器模态（如RGB、红外、深度、激光雷达和事件）的优势。然而，设计一个能够有效处理多种传感器模态的统一通用模型仍然是一个挑战。本文介绍了一种新型的多模态感知通用模型——MMPedestron。与以往只能处理一种或一对特定模态输入的专业模型不同，MMPedestron能够处理多个模态输入及其动态组合。该方法包括一个用于模态表示和融合的统一编码器以及一个用于行人检测的通用头部模块。我们引入了两个额外的可学习令牌，即自适应多模态特征融合（MAA和MAF），以实现自适应多模态特征融合。此外，我们构建了MMPD数据集，这是首个大规模的多模态行人检测基准数据集。该基准数据集整合了现有的公开数据集，并包含了一个新收集的数据集EventPed，涵盖了广泛的传感器模态，包括RGB、红外、深度、激光雷达和事件数据。通过多模态联合训练，我们的模型在多个行人检测基准上达到了最先进的性能，超越了为特定传感器模态定制的领先模型。例如，在COCO-Persons数据集上实现了71.1 AP，在LLVIP数据集上实现了72.6 AP。值得注意的是，我们的模型在CrowdHuman数据集上的性能与InternImage-H模型相当，但参数量仅为后者的三十分之一。代码和数据可在https://github.com/BubblyYi/MMPedestron获取。

源 PDF 查看代码