HyperAIHyperAI

Command Palette

Search for a command to run...

用 Informer 实现多元概率时间序列预测

20 小时 RTX 5090 算力资源,仅 $1 (原价 $7)
跳转至 Notebook

摘要

一句话总结

在贝叶斯框架下训练,提出的 TweedieGP 模型将高斯过程隐函数与完全参数化的 Tweedie 似然函数相结合,以概率方式预测间歇性时间序列。该模型在无需简化假设的情况下,准确捕捉了零点处的点质量与重尾特征,并在数千个计数序列上持续优于负二项分布基线模型,尤其在较高分位数估计方面表现突出。

核心贡献

  • 该框架在用于间歇性时间序列的贝叶斯预测设置中,将高斯过程作为隐函数使用,通过将隐变量与负二项分布耦合,直接将参数不确定性传播至预测分布中。
  • 本研究提出了 TweedieGP,这是首个采用完全参数化 Tweedie 分布的间歇性需求概率模型。该模型无需依赖先前方法的单峰限制,即可准确表示零点处的点质量与重尾特征。
  • 在约 40,000 条供应链时间序列上的评估表明,基于高斯过程的两种模型均持续优于现有竞争模型。其中,Tweedie 变体凭借其双峰结构,在最高分位数估计中提供了最准确的结果。

引言

间歇性时间序列预测对于供应链库存管理至关重要,因为需要准确的概率分布来计算关键分位数并优化库存水平。先前的概率模型通常依赖未观测到的隐过程来追踪需求参数随时间的变化,但往往忽略了这些变量周围的不确定性。这种疏忽,加上使用了无法捕捉零点质量或右侧重尾的标准分布,限制了预测的可靠性。本文作者利用高斯过程,显式地量化并将隐变量不确定性传播至预测分布中。他们提出了两种新框架:Neg-BinGP 与 TweedieGP,后者是首个针对间歇性序列的完全参数化 Tweedie 分布模型。通过将高斯过程与双峰 Tweedie 似然函数相结合,他们在保持与成熟局部模型相当的训练效率的同时,提供了更准确的概率预测,尤其是在较高分位数处。

数据集

作者在五个公开的间歇性时间序列数据集上评估了其预测模型,总计包含超过 40,000 条序列。当平均需求间隔大于 1 时,他们将该序列定义为间歇性序列,以确保每条序列至少包含一个零值观测。数据集构成、子集详情及处理流程如下:

  • M5: 源自大型预测竞赛的沃尔玛每日销售数据。包含 30,490 条序列,具有最长的训练长度(T = 1,941),并表现出最异质的零值比例与较小的需求规模。
  • OnlineRetail: 英国某在线零售商的每日销售记录。作者按商品汇总每日销售额,并应用过滤规则,仅保留前 200 天内至少有一次正需求的序列。这些序列的长度约为 RAF 数据集的五倍。
  • Auto: 汽车零件的短期月度时间序列。零值比例最低,训练长度最短(T = 18)。
  • Carparts: 汽车备件的较长月度时间序列,被归类为强间歇性序列。
  • RAF: 英国皇家空军飞机备件的月度时间序列,其特征是零值比例高,且序列长度短于 OnlineRetail。
  • 使用方式与划分: 作者使用这些数据集对不同间歇性水平下的模型性能进行基准测试。他们记录每个数据集划分的训练长度(T)与预测步长(h),以评估预测精度,未指定混合比例,并将每条序列视为独立的评估单元。
  • 处理与元数据: 需求规模分布使用以 10 为底的对数尺度进行可视化与分析。作者监控零值比例以量化数据集的异质性,并应用 ADI > 1 的阈值以统一所有子集的间歇性序列定义。

方法

作者利用高斯过程(GPs)作为非参数贝叶斯框架,对控制间歇性时间序列预测的隐函数进行建模。该方法的核心在于定义函数 f:R+Rf: \mathbb{R}_+ \rightarrow \mathbb{R}f:R+R 上的先验分布,该函数代表影响预测分布均值的隐变量。该先验被指定为一个具有均值函数 m()m(\cdot)m() 和正定核函数 k(,)k(\cdot, \cdot)k(,) 的高斯过程,其中均值设为常数可学习参数 ccc,核函数采用径向基函数(RBF),以编码时间上的平滑性假设。RBF 核函数定义为 k(ti,tj)=σ2exp(titj222)k(t_i, t_j) = \sigma^2 \exp\left(-\frac{|t_i - t_j|^2}{2\ell^2}\right)k(ti,tj)=σ2exp(22titj2),包含可学习超参数 σ2\sigma^2σ2(输出尺度)与 \ell(长度尺度),用于控制隐函数的取值范围与时间变化。在观测时间点处的隐函数值 f1:T\mathbf{f}_{1:T}f1:T 的先验分布为多元高斯分布 N(m1:T,KT,T)\mathcal{N}(\mathbf{m}_{1:T}, K_{T,T})N(m1:T,KT,T),其中均值向量 m1:T\mathbf{m}_{1:T}m1:T(c,,c)(c, \ldots, c)^\top(c,,c)KT,TK_{T,T}KT,T 为由核函数评估构建的协方差矩阵。

隐函数 fff 通过 softplus 函数 softplus(x)=log(1+ex)\text{softplus}(x) = \log(1 + e^x)softplus(x)=log(1+ex) 进行变换以确保正值,因为似然函数需要正均值参数。该变换产生了一个具有非对称可信区间的非负隐过程。该模型将此隐 GP 变量与概率预测分布耦合以生成预测结果。似然函数以变换后的隐函数为条件,表示为 plik(yisoftplus(fi),θlik)p_{\text{lik}}(y_i \mid \text{softplus}(f_i), \boldsymbol{\theta}_{\text{lik}})plik(yisoftplus(fi),θlik),其中 fi=f(ti)f_i = f(t_i)fi=f(ti)θlik\boldsymbol{\theta}_{\text{lik}}θlik 为超参数。考虑两种不同的似然函数:负二项分布(NegBinGP)与 Tweedie 分布(TweedieGP)。对于负二项分布,成功次数 rrr 建模为 r=softplus(f)r = \text{softplus}(f)r=softplus(f),而成功概率 ppp 为可学习超参数。对于 Tweedie 分布,均值 μ\muμ 设为 softplus(f)\text{softplus}(f)softplus(f),离散参数 ϕ\phiϕ 与幂参数 ρ\rhoρ 为优化超参数。

在观测到训练数据 y1:T\mathbf{y}_{1:T}y1:T 后,通过贝叶斯定理获得隐函数的后验分布 p(f1:Ty1:T)p(\mathbf{f}_{1:T} \mid \mathbf{y}_{1:T})p(f1:Ty1:T)。由于似然函数非高斯,精确后验难以计算,作者采用变分诱导点近似法,用高斯密度 q(f1:Ty1:T)q(\mathbf{f}_{1:T} \mid \mathbf{y}_{1:T})q(f1:Ty1:T) 对其进行近似。该近似使得模型参数的优化变得可行。未来时间点 yT+1:T+h\mathbf{y}_{T+1:T+h}yT+1:T+h 的预测分布通过对隐函数的后验分布 p(fT+1:T+hy1:T)p(\mathbf{f}_{T+1:T+h} \mid \mathbf{y}_{1:T})p(fT+1:T+hy1:T) 进行边缘化得到,随后从该分布中采样并将样本输入似然函数。该过程将隐函数的不确定性传播至最终预测分布中,从而能够在无需自回归采样的情况下生成概率预测。该框架允许对隐过程及其不确定性进行直接推断,为具有复杂分布的间歇性时间序列建模提供了一种严谨的方法。

实验

评估框架使用针对间歇性需求定制的尺度无关评分规则,将提出的 NegBinGP 和 TweedieGP 模型与成熟的局部预测基线进行对比评估。基线对比验证了所提方法能有效处理稀疏时间序列,而消融实验表明,基于中位数的缩放对数值稳定性至关重要,且完整的 Tweedie 似然函数通过保留更重的尾部,在可靠的较高分位数预测方面显著优于简化近似方法。综合来看,这些结果证实了经过适当缩放的高斯过程模型为间歇性预测挑战提供了稳健的解决方案。

作者使用多种指标(包括缩放分位数损失、缩放 RPS 和 RMSSE)对比了 NegBinGP 和 TweedieGP 与多个基线的性能。结果表明,TweedieGP 在不同数据集上均取得了具有竞争力的性能,在大多数情况下误差值低于其他方法。消融研究表明,数据缩放能够提升性能,且完整的 Tweedie 似然函数优于简化版本。在多个数据集上,TweedieGP 相比其他模型实现了更低的误差值。在大多数情况下,NegBinGP 相比 TweedieGP 及其他基线表现出更高的误差值。如消融实验所示,数据缩放提升了 TweedieGP 的性能。

作者在不同数据集上使用多种指标对比了其提出的 NegBinGP 和 TweedieGP 模型与多个基线的性能。结果表明,TweedieGP 通常取得与其他方法相当或更优的性能,尤其在缩放分位数损失和排序概率得分方面,而 NegBinGP 在特定场景中表现良好。消融研究表明,缩放与似然近似方法的选择显著影响模型精度,未缩放的数据会导致性能下降。在大多数指标和数据集上,TweedieGP 取得了与基线相当或更优的性能。NegBinGP 在部分情况下表现良好,特别是在 M5 数据集上,其在某些指标上优于其他模型。消融实验显示,数据缩放提升了模型性能,且似然近似方法的选择会影响较高分位数的估计。

作者在不同数据集上使用多种指标对比了其提出的 NegBinGP 和 TweedieGP 模型与多个基线的性能。结果表明,TweedieGP 在缩放分位数损失和排序概率得分方面持续取得相当或更优的性能,尤其在较高分位数处,而 NegBinGP 在 RMSSE 等特定指标上表现良好。消融实验证实,数据缩放与完整的 Tweedie 似然函数对实现最佳性能至关重要。TweedieGP 在大多数指标上取得了最佳或接近最佳的性能,尤其是针对较高分位数和排序概率得分。NegBinGP 在 RMSSE 和部分分位数损失指标上展现出强劲性能,尤其在 M5 和 OnlineRetail 数据集上。消融研究表明,数据缩放与完整的 Tweedie 似然函数对于准确的较高分位数估计及整体模型性能至关重要。

作者在多个频率和长度各异的时序数据集上开展实验,使用包括缩放分位数损失、排序概率得分和均方根缩放误差在内的一系列指标,将所提模型与多个基线进行对比。结果表明,模型性能取决于数据缩放与似然函数的选择,未缩放的数据会导致数值问题,而近似似然函数会影响较高分位数的估计。该实验涉及多个频率和长度不同的时间序列,包含日度与月度数据。作者使用缩放分位数损失、排序概率得分和均方根缩放误差将模型与基线进行对比。数据缩放提升了模型性能,且似然函数的选择会影响较高分位数的估计。

作者开展消融实验,以评估数据缩放与似然近似对间歇性时间序列高斯过程模型性能的影响。结果表明,数据缩放能够提升性能,而使用近似似然函数会导致较高分位数的估计效果变差。该研究在不同参数设置下对比了模型的不同配置。数据缩放提升了高斯过程模型的性能。近似似然函数会导致较高分位数的估计效果变差。模型性能在不同参数配置下有所差异,表明其对设置较为敏感。

作者在多样化的时序数据集上,将提出的 NegBinGP 和 TweedieGP 模型与多个基线进行对比评估,以检验其整体预测能力。主要对比验证了 TweedieGP 在大多数场景下(尤其是较高分位数)持续提供稳健的性能,而 NegBinGP 在特定数据集上展现出针对性优势。随后的消融实验证实,适当的数据缩放对数值稳定性必不可少,且与简化近似方法相比,使用完整的似然函数能显著提升尾部估计效果。综合来看,这些实验确立了似然函数设定与数据预处理对模型效能的关键作用,使 TweedieGP 成为更可靠的通用型解决方案。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供