
摘要
预测模型难免出错,因此有必要对预测结果所伴随的不确定性进行量化。近年来,保形推断(conformal inference)作为一种强大工具,被广泛用于构建点预测周围的统计有效预测区间。然而,若将保形推断直接应用于回归问题,所得预测区间往往缺乏自适应性。为克服这一局限,研究者提出了新型保形评分(conformal scores),这些方法通常依赖于分位数回归器或条件密度估计器。尽管这些评分在构造预测带方面具有实用性,但它们与原始目标——即对任意预测模型的不确定性进行量化——之间存在脱节。本文提出了一类全新的、模型无关(model-agnostic)的方法族,用于校准回归问题中的预测区间,并在局部覆盖(local coverage)方面提供理论保证。我们的方法核心思想是寻找能够近似实现条件覆盖(conditional coverage)的最粗粒度特征空间划分。通过在保形评分上训练回归树(regression trees)和随机森林(Random Forests),我们实现了这一划分过程。所提方法具有高度灵活性,适用于多种保形评分和不同的预测场景,并在模拟数据与真实世界数据集上均展现出优于现有基准方法的可扩展性与性能表现。为便于实际应用,我们开发了一个名为 clover 的 Python 工具包,其接口遵循标准的 scikit-learn 风格,用户可无缝集成至现有机器学习工作流中。