17 天前
WILDS:野外分布偏移的基准测试
Pang Wei Koh, Shiori Sagawa, Henrik Marklund, Sang Michael Xie, Marvin Zhang, Akshay Balsubramani, Weihua Hu, Michihiro Yasunaga, Richard Lanas Phillips, Irena Gao, Tony Lee, Etienne David, Ian Stavness, Wei Guo, Berton A. Earnshaw, Imran S. Haque, Sara Beery, Jure Leskovec, Anshul Kundaje, Emma Pierson, Sergey Levine, Chelsea Finn, Percy Liang

摘要
分布偏移(distribution shifts)——即训练数据分布与测试数据分布存在差异——会显著降低机器学习(ML)系统在实际应用中的准确性。尽管这类分布偏移在现实世界部署中极为普遍,但当前机器学习社区广泛使用的数据集却严重缺乏对这类现象的充分反映。为弥补这一差距,我们提出了WILDS,一个精心构建的基准数据集集合,包含10个数据集,涵盖了真实应用场景中自然出现的多种分布偏移类型,例如:在肿瘤识别任务中不同医院之间的分布差异;在野生动物监测中不同相机陷阱之间的分布变化;以及在卫星成像和贫困地图绘制中随时间与地理位置变化的分布偏移。在每个数据集上,我们均发现,采用标准训练方法所得到的模型在分布外(out-of-distribution)数据上的表现显著低于在分布内(in-distribution)数据上的表现。即使使用现有针对分布偏移问题的训练方法,这一性能差距依然存在,凸显了开发新型训练方法的迫切需求,以提升模型对实际中常见分布偏移的鲁棒性。为促进新方法的研发,我们提供了一个开源工具包,支持数据集的自动加载,内置默认的模型架构与超参数配置,并统一评估流程。相关代码与排行榜已公开,访问地址为:https://wilds.stanford.edu。