6 个月前

摘要

主动学习（Active Learning, AL）是一种具有前景的机器学习范式，能够有效处理大规模未标注数据，并在标注成本高昂的领域中显著降低人工标注开销。近期提出的基于神经网络的主动学习方法采用了不同的启发式策略以实现该目标。在本研究中，我们发现在相同的实验设置下，不同类型的主动学习算法（基于不确定性的、基于多样性的以及基于委员会的）相较于随机采样基线，其性能提升并不一致。通过一系列控制随机性来源的实验，我们表明，主动学习算法在性能指标上的方差可能导致其结果与先前报道的结论不一致。此外，我们还发现，在强正则化条件下，主动学习方法在多种实验设置下仅表现出微弱甚至无显著优势，与随机采样基线相比并无明显改进。最后，我们提出了一套关于如何评估新型主动学习算法结果的建议，以确保研究结果在实验条件变化下具备可复现性和鲁棒性。为促进主动学习方法的评估，我们公开了全部代码。我们相信，本研究的发现与建议将有助于推动基于神经网络的主动学习领域实现更高质量的可复现性研究。相关代码已开源，地址为：https://github.com/PrateekMunjal/TorchAL。

源 PDF