
摘要
在训练神经网络时,通常利用可用的训练数据进行优化,期望模型能够良好地泛化到新的或未见过的测试数据上。在损失函数景观中,相同绝对值下,平坦的极小值被认为比尖锐的极小值具有更好的泛化能力。以往针对平坦极小值(flat minima)的检测与优化方法主要集中在独立同分布(i.i.d.)数据上,例如图像数据。然而,图结构数据本质上是非i.i.d.的,因为节点之间通过边相互连接。本文研究了适用于图神经网络(GNNs)的平坦极小值方法及其组合策略。我们以GCN和GAT为基础模型,并扩展Graph-MLP以支持更多层和更大规模的图结构。在小规模与大规模的引用网络、共购买网络以及蛋白质相互作用网络数据集上,采用多种随机与非随机的训练-测试划分方式,分别在归纳式(inductive)和直推式(transductive)学习范式下进行了实验。实验结果表明,当训练-测试划分采用随机化策略时,平坦极小值方法可使GNN模型性能提升超过2个百分点。根据Shchur等人提出的观点,随机划分对于公平评估GNN模型至关重要,而诸如“Planetoid”这类固定划分方式存在偏差。综上所述,本研究为提升与公平评估GNN中平坦极小值方法提供了重要见解。我们建议实践者在使用早停(early stopping)策略时,始终采用权重平均技术,尤其是指数加权平均(EWA)。尽管权重平均方法并非在所有情况下都是性能最优的,但其对超参数的敏感度较低,无需额外训练,且不改变原始模型结构,具有良好的实用性和稳定性。所有源代码均已公开,可访问:https://github.com/Foisunt/FMMs-in-GNNs。