基于池的采样 Pool based Sampling

基于池的采样 (Pool based Sampling) 是一种流行的主动学习方法,它选择信息丰富的示例进行标记。创建未标记的数据池,模型选择信息最丰富的示例进行人工注释。这些标记的示例用于重新训练模型,并重复该过程。

优点

  • 降低标记成本:与传统的监督学习方法相比,基于池的采样降低了总体标记成本,因为它只需要标记信息最丰富的样本。这可以显着节省成本,特别是在处理大型数据集时。 
  • 有效利用专家时间:由于专家只需要标记信息量最大的样本,因此该策略可以有效利用专家时间,节省时间和资源。
  • 提高模型精度:所选样本更有可能提供数据信息并具有代表性,因此基于池的采样可以提高模型的精度。

缺点

  • 未标记数据池的选择:所选数据的质量会影响模型的性能,因此仔细选择未标记数据池至关重要。这可能具有挑战性,尤其是对于大型且复杂的数据集。
  • 选择方法的质量:用于选择信息最丰富的样本的选择方法的质量会影响模型的准确性。如果选择方法不适合数据或设计不当,模型的准确性可能会受到影响。 
  • 不适合所有数据类型:基于池的采样可能不适合所有类型的数据,例如非结构化数据或噪声数据。在这些情况下,其他主动学习方法可能更合适。

参考来源

【1】https://encord.com/glossary/pool-based-sampling/