HyperAI超神经
Back to Headlines

利用机器学习预测网络拥塞,智能启用INT监控提升效率

13 hours ago

从被动到主动:用机器学习和INT预测网络拥塞 在数据中心中,网络减速问题常常突如其来。分布式系统、微服务或AI训练作业的突发流量可以在几秒钟内填满交换机缓冲区,导致性能下降。现有的遥测系统虽然广泛用于监测网络健康状况,但大多采取被动方式,仅在性能出现问题后才发出警报。这导致难以追踪问题的根源,尤其是在拥塞已经发生的阶段。 为此,研究人员提出了一种新的解决方案——利用In-band Network Telemetry(INT)结合机器学习进行主动预测。INT通过在传输中的数据包上附加元数据,提供了实时的网络流量视图,揭示了队列积压的位置、延迟增加的部分以及每个交换机的数据转发情况。然而,对所有数据包启用INT会产生巨大的数据量,占用大量带宽和处理能力。 为了解决这一问题,新系统设计了一个预测框架,旨在预先识别潜在的拥塞区域并仅在必要时启用详细的INT监测。这不仅降低了系统开销,还在最关键时刻提供了深入的可见性。 系统设计 数据收集器 首先,通过sFlow来收集网络各端口的实时流量数据,不会影响网络性能。这些数据定期更新,使网络状况始终保持透明。 预测引擎 该引擎基于Long Short-Term Memory(LSTM)模型构建,LSTM能够学习随时间变化的模式,特别适合于网络流量预测。其目标不是精确预报,而是提前捕捉到不寻常的流量激增,这些激增往往是拥塞前的征兆。 遥测控制器 控制器接收预测结果并根据预报值作出决策。当预报结果显示某部分流量可能超过阈值时,控制器会下达指令,让相关交换机切换到详细监测模式,仅针对这些高风险流或端口进行监控。一旦条件恢复正常,控制器会及时关闭额外的遥测功能。 可编程数据平面 使用P4可编程的BMv2交换机实现实时调整。大多数时间,交换机会正常转发数据包。当控制器触发INT时,交换机会对符合特定规则的数据包嵌入遥测元数据,从而实现有针对性的高保真监测。 实验设置 研究人员构建了一个完整的系统模拟。LSTM模型在Mininet中生成的合成流量数据上进行训练,每30秒预测一次未来的流量趋势,并将结果存储供控制器使用。控制器根据预测结果,在必要时激活特定交换机的INT功能。 预测循环的大致流程如下: 每30秒: - 获取当前流量数据:latest_sample = data_collector.current_traffic() - 更新滑动窗口:slinding_window += latest_sample - 如果窗口大小超出设定值:.forecast > alert_threshold - 触发INT:telem_controller.trigger_INT() 评估 研究团队通过原型测试展示了该方法的实际优势。与被动遥测系统相比,预测系统在以下几个方面表现出色: 领先时间优势 预测系统能够在队列阈值被突破或性能下降之前,提前捕捉到拥塞迹象。这为网络管理人员提供了更多时间来采取预防措施,而不仅仅是应对已经出现的问题。 监控效率 系统设计的目标是在不牺牲可见性的前提下,尽量减少开销。通过选择性地在短时间内启用高保真遥测,而非对所有流量进行全面监控或采样,预测系统有效限制了INT的开启范围和时间。这种设计自然减少了不必要的数据量,提高了系统的整体效率。 业内评价 这种方法被认为是网络管理领域的一个重大进步。它不仅解决了现有遥测系统的滞后问题,还在资源消耗和监控效果之间找到了平衡点。研究人员来自知名大学和企业,他们强调,这一设计未来有潜力应用于各种规模的数据中心,提高网络的稳定性与可靠性。 公司背景 项目背后的团队包括多位在网络安全和机器学习领域的专家,他们致力于开发更智能的网络管理工具。这项研究得到了业界的高度关注,多家大型科技公司表示有兴趣合作或应用这一系统。

Related Links