17 天前

面向群体偏移的分布鲁棒神经网络：正则化在最坏情况泛化中的重要性

Shiori Sagawa, Pang Wei Koh, Tatsunori B. Hashimoto, Percy Liang

摘要

在独立同分布（i.i.d.）测试集上，过参数化的神经网络通常能够实现较高的平均准确率，但在数据中的非典型群体上却持续表现不佳（例如，由于学习了在整体数据上成立但不适用于特定群体的虚假相关性）。分布鲁棒优化（Distributionally Robust Optimization, DRO）提供了一种方法，使模型能够最小化预定义群体集合中的最坏情况训练损失。然而，我们发现，将传统的组别DRO（group DRO）直接应用于过参数化神经网络会失效：这类模型能够完美拟合训练数据，且只要平均训练损失趋近于零，最坏情况下的训练损失也随之趋近于零。事实上，最差群体性能的下降根源在于某些群体上的泛化能力不足。通过将组别DRO模型与更强的正则化策略相结合——例如采用强于常规的L2正则化或提前停止（early stopping）——我们显著提升了最差群体的准确率，在自然语言推理任务以及两个图像识别任务上，最差群体准确率提升了10至40个百分点，同时仍保持较高的平均准确率。我们的研究结果表明，在过参数化情形下，正则化对于最差群体的泛化至关重要，即使其对平均泛化并非必需。最后，我们提出了一种具有收敛性保证的随机优化算法，可高效训练组别DRO模型。