
摘要
将多个现有检测器的优势相结合,构建一个性能优于各组成部分的“专家混合模型”(Mixture of Experts),是一种无需设计新架构或从零开始训练模型即可有效提升性能的策略。然而,令人意外的是,我们发现若简单地以类似于深度集成(Deep Ensembles)的方式组合专家检测器,往往会导致性能下降。我们识别出这一问题的主要原因在于:专家的预测结果与其实际性能不匹配,这种现象被称为“校准不足”(miscalibration)。由此导致最自信的检测器在最终预测中占据主导地位,从而使混合模型无法充分融合各专家的预测优势。为解决该问题,在构建专家混合模型时,我们提出一种新的策略:在融合专家预测结果时,充分反映各专家自身的实际性能。为此,我们首先对各专家的预测结果进行校准,再经过筛选与精炼,从而实现更合理的集成。我们将这一方法称为“校准专家混合模型”(Mixture of Calibrated Experts)。通过在五种不同检测任务上使用多种检测器进行大量实验,我们验证了该方法的有效性,结果表明:(i)在COCO数据集上显著提升目标检测器性能,在LVIS数据集上提升实例分割方法性能,最高可提升约2.5 AP;(ii)在COCO test-dev上达到65.1 AP,创下当前最优水平;在DOTA数据集上取得82.62 AP₅₀的优异成绩;(iii)在近期的开放词汇目标检测(Open Vocabulary Object Detection)等挑战性任务中,始终优于单一模型。