留出法 Hold-out

留出法是一种模型评估方法,其通过将数据集 D 划分为两个互斥的集合,假设其中一个集合为训练集 S,另一个为测试集 T,则有:

D = S ∪ T , S ∩ T = ∅

训练/测试集的划分要尽可能保持数据分布的一致,为避免数据划分过程中引入的额外偏差导致结果出现影响,因此通常采用分层采样。

由于不同的划分方式会带来不同的训练/测试集,相应的模型评估结果也会存在差别,因此单次使用留出法的估计结果大多不可靠,其通常需要进行若干次随机划分,重复进行试验评估后取平均值作为评估结果。