
摘要
在矩阵分解中,可用的图侧信息可能并不适合矩阵补全问题,因为其中的边与从不完整数据矩阵中学到的潜在特征关系存在冲突。我们证明,移除这些$\textit{争议}$(contested)边可以提高预测准确性和可扩展性。我们通过一种高效的图形套索近似方法来识别这些争议边。争议边的识别和移除不会增加最先进的图正则化矩阵分解算法的计算复杂度,仍然保持与非零元素数量呈线性关系。计算负载甚至会随着移除边的数量成比例减少。通过构建一个概率生成模型并使用期望最大化方法扩展图正则化的交替最小二乘法(GRALS),可以保证算法收敛。丰富的模拟实验展示了该算法所具有的理想特性。在真实数据实验中,我们证明了通过减少图中的边数可以提高预测准确性(实验证据表明图侧信息通常不够准确)。对于一个具有30万维、300万条边的图(雅虎音乐侧信息),我们的图更新方法可以在标准笔记本电脑上不到十分钟内完成分析,这进一步证明了我们方法的高效性。