HyperAI超神经

近日，一名数据分析师在研究AI模型训练能耗时遇到了一个有趣的统计问题：使用对数变换（Log Transformation）与使用对数链接函数（Log Link）建模之间的差异。该分析师使用了Epoch AI提供的数据集，计算了不同模型的能耗，并发现数据具有显著的右偏斜分布和异方差性（图1）。为了处理这些问题，分析师首先尝试了对数变换，使能耗变量（Energy）符合正态分布（图2）。然而，在进一步建模时，遇到了选择对数变换还是对数链接函数的问题。该分析师考虑了两种不同的分布模型——高斯分布（Gaussian）和伽马分布（Gamma），并结合两种对数方法建立了四个不同的模型。这些模型通过R编程语言中的广义线性模型（Generalized Linear Models, GLM）进行拟合。通过对四个模型进行Akaike信息准则（AIC）的比较，结果显示使用对数变换后的模型具有更低的AIC值（表1），表明这些模型有更好的预测能力。 | 模型 | 自由度 | AIC | |------------------------------|--------|----------| | 高斯对数链接 | 25 | 2005.83 | | 高斯对数变换 | 25 | 311.596 | | 伽马对数链接 | 25 | 1780.85 | | 伽马对数变换 | 25 | 352.545 | 尽管如此，为了进一步验证模型的合理性，分析师还检查了残差诊断图（图4至图7）。结果发现，对数变换的伽马模型不仅AIC值较低，而且其残差对拟合图（Residuals vs Fitted plot）也优于其他模型，因此选择了这个模型进行后续分析。然而，在解释模型系数时，出现了问题。由于仅对响应变量进行了对数变换，解释各预测变量的效果时需要将其指数化。结果显示，连续变量（如训练时间和硬件数量）的效应几乎为零，甚至略微负值，这明显不合理（表2）。于是，分析师重新考虑使用对数链接函数的方法。 | 预测变量 | 估计值 | 标准误差 | t值 | p值 | |-----------------------------|---------|---------|-------|---------| | 训练时间（小时） | -1.587e-05 | 3.112e-06 | -5.098 | 5.76e-06 | | 硬件数量（单位） | -5.121e-06 | 1.564e-06 | -3.275 | 0.00196 | | 训练硬件类型（例如Google TPU v2） | 1.396e-01 | 2.297e-02 | 6.079 | 1.90e-07 | 重新使用对数链接函数建立模型后，结果显示训练时间和硬件数量对总能耗的影响更为合理，分别为每增加一小时能耗增加0.18%，每增加一个硬件单位能耗增加0.07%（表3）。此外，两个变量的交互项也有显著影响，每增加一个单位的交互项，能耗会减少2×10⁵%。 | 预测变量 | 估计值 | 标准误差 | t值 | p值 | |-----------------------------|---------|---------|-------|---------| | 训练时间（小时） | 1.818e-03 | 1.640e-04 | 11.088 | 7.74e-15 | | 硬件数量（单位） | 7.373e-04 | 1.008e-04 | 7.315 | 2.42e-09 | | 训练时间*硬件数量 | -2.651e-07 | 6.130e-08 | -4.324 | 7.70e-05 | 为了更直观地展示这两种模型的差异，分析师创建了两个图表（图8）。左侧图显示的是对数变换的伽马模型，预测线几乎是平的，与原始数据拟合的直线差距较大。而右侧图使用了对数链接的伽马模型，预测线则与实际数据拟合得更好。通过深入理解这两者的数学区别，可以发现对数变换改变了变量本身及其变异和噪声，而对数链接函数则保持原始变量不变，只是对其预测值进行指数化，从而使模型预测更加准确。因此，尽管对数变换看起来简化了数据，但在建模时可能会导致不准确的结果。在这个案例中，对数链接函数显然更加适用，能够捕捉到数据的真实效应。在业内，这种对数链接函数与对数变换的区别经常被忽视，但却是进行可靠建模的关键点之一。对数链接函数不仅能够更好地处理偏斜数据，还能保持模型变量的原始解读意义，这对于数据分析来说至关重要。此案例中使用的数据集来自一家提供大规模AI模型训练资源的公司——Epoch AI。该公司因其高性能的云服务平台和详细的能耗报告而在人工智能领域备受关注。这一分析不仅展示了对数方法的选择对模型性能的重要性，还提醒数据科学家们要深入理解模型背后的数学原理。

相关链接

相关链接

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

Command Palette

解读对数变换与对数链接：为何正确选择能显著提升AI能耗分析模型性能

相关链接

Command Palette

解读对数变换与对数链接：为何正确选择能显著提升AI能耗分析模型性能

相关链接

Command Palette

解读对数变换与对数链接：为何正确选择能显著提升AI能耗分析模型性能

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化