13 天前

类增量学习的关键要素

Sudhanshu Mittal, Silvio Galesso, Thomas Brox
类增量学习的关键要素
摘要

当前的神经网络在从持续演变的训练数据流中学习方面存在局限性。当其在新任务或不断变化的任务上进行顺序训练时,模型准确率会急剧下降,这使其难以适用于许多现实应用场景。在本研究中,我们针对一类典型的增量学习设置——类别增量学习(class-incremental learning, class-IL)——深入探讨了这一长期存在但尚未解决的现象——即“灾难性遗忘”(catastrophic forgetting)的根本原因。我们发现,仅通过若干简单组件的组合,并辅以一种能够平衡任务内学习与任务间学习的损失函数,即可在很大程度上缓解遗忘问题,其效果与文献中提出的更为复杂的解决方案相当。此外,我们识别出模型所学表征质量低下是导致类别增量学习中灾难性遗忘的另一关键因素。实验表明,模型性能与其中隐含的次要类别信息(即“暗知识”,dark knowledge)密切相关,而通过引入适当的正则化项,可有效提升模型表征质量并改善性能。基于上述发现,我们在CIFAR-100和ImageNet数据集上的类别增量学习任务中,取得了显著优于当前最先进方法的结果,同时保持了方法本身的简洁性。

类增量学习的关键要素 | 最新论文 | HyperAI超神经