
摘要
近年来,行人检测领域取得了显著进展,但在遮挡和密集场景下实现高性能仍具挑战性。这一难题主要源于行人通常采用的二维轴对齐边界框(2D axis-aligned bounding box)表示方式——该方法仅能粗略描述目标的位置与尺寸。边界框将物体建模为边界内的均匀分布,导致在遮挡和密集场景中,由于噪声干扰严重,行人之间难以区分。为解决该问题,本文提出一种基于二维贝塔分布(2D beta distribution)的新表示方法,命名为“贝塔表示法”(Beta Representation)。该方法通过显式建模完整人体框与可见部分框之间的关系,并为像素赋予不同的概率值,突出视觉质量中心,从而更精准地刻画行人的空间分布特征。由此,贝塔表示法在密集场景中对高度重叠实例的区分能力显著提升,并结合一种新型非极大值抑制策略——贝塔NMS(BetaNMS),进一步优化检测结果。此外,为充分挖掘贝塔表示法的潜力,本文提出一种新型检测框架——贝塔R-CNN(Beta R-CNN),其包含专为该表示设计的贝塔头(BetaHead)与贝塔掩码模块(BetaMask),在遮挡与密集场景下均实现了优异的检测性能。